大数据弄潮儿
文章平均质量分 77
让我们在大数据的海洋里勇立潮头,劈荆斩浪
神芷迦蓝寺
神芷迦蓝寺,江楼月美人
展开
-
成为一个大数据开发工程师的学习步骤--文字版
本博客搬运自我知乎所出视频成为一个大数据开发工程师的学习步骤? - 知乎大数据的学习是有条件限制的,首先你需要是一名普通的工程师,如果你是Java工程师的话更好,但如果你是小…https://www.zhihu.com/question/67872368/answer/416481734P1:江南无所有,聊赠一枝春,大家好,欢迎来到恒生课程。本期我们站在一个开发者的角度来回答题主的问题:成为一个大数据开发工程师的学习步骤。P2:在回答问题之前,先做一个简单的自我介绍,我目前就职于恒生财富经纪业务.原创 2022-01-25 15:42:12 · 3376 阅读 · 3 评论 -
kafka常见异常问题总结:KeepErrorCode = NoNode for...
主要异常kafka是我们常见的数据订阅中间件系统,但清除累计的日志文件也是件技术活笔者在清除日志的时候,不小心把zookeeper log 目录下version-2里的文件删除了,就引发了一系列惨案:kafka数据报错,无法再产生数据,报错详情:kafka报错:Error Path:/admin Error:KeeperErrorCode = NoNode for /brokersError Path:/admin Error:KeeperErrorCode = NoNode for原创 2021-04-01 10:40:26 · 9583 阅读 · 2 评论 -
ES如何在界面创建index和type
传送站:es的批量传输和增删改查es本质上也是数据库,只不过是分析型数据库,可以快速响应大数据量查询,其中index类似于数据库,type类似于表那么如何在应用界面端创建index和type呢首先打开主页,点击复合查询,在红框位置输入对应的index_name和在代码里输入对应的type_name以及相关字段即可创建index_name和type_name注意:es并不是严格意义上的结构化数据,所以对表结构要求不高,因此title那里可任意设置字段,后续可以根据实际业务自动更改其实也可以原创 2021-01-14 14:14:22 · 4158 阅读 · 0 评论 -
canal实战(三)|canal数据消费到kafka
## 本文章改编于阿里开源工具Canal,原版网址https://github.com/alibaba/canalcanal第一辑canal的配置安装与服务启动 canal第二辑canal java客户端canal的原理我们在第一辑里已经介绍,现在我们需要把canal采集到的日志数据消费到kafka,并通过kafka把数据进行进一步入库,上云等消费操作。首先我们把Kafka进行安装配置,涉及到的有zookeeper,kafka,有的服务器还要装java环境等,kafka的安装我之前有讲...原创 2020-11-20 18:40:07 · 2101 阅读 · 0 评论 -
阿里云实时计算平台Flink的作业开发流程详解
阿里云实时计算Flink版的优势极大:性能优越:作业可达百万级吞吐,计算可达秒级延迟,TPC-H性能测试可达开源引擎3~5倍。 功能强大:数十种作业指标监控,一站式开发界面,提供智能诊断系统,具有作业智能调优功能。 价格低廉:极致弹性体验,可按量付费,总资源费用低于自建。 稳定安全:服务SLA可达99.9%,集群计算无单点,故障可自动恢复,资源租户隔离,杜绝相互干扰。 品牌认证:Flink官方创始团队出品,中国信通院认证,进入Forrester象限的实时流计算产品。 兼容开源:提供最新Flin原创 2020-10-19 17:48:50 · 1454 阅读 · 0 评论 -
Hive 中的时间加减暨间隔函数INTERVAL
sql计算时,一般我们来做时间加减会unix_timestamp和from_unixtime结合使用:先把时间unix距1970年至今的整数秒,再进行加减就达到了时间前后的目的,详见我另一篇blog:https://blog.csdn.net/mochou111/article/details/104520108现在我们来认识一个在时间加减上更为简便的函数:INTERVAL举例说明,我们想要当前时间十秒前的时间select current_timestamp() - INTERVAL 10.原创 2020-08-14 09:35:09 · 15402 阅读 · 4 评论 -
ElasticSearch的批量传输和增删改查
1 数据传输ES的数据传输分两种,单条传输和批量传输,当然理论上多次单条传输也会有批量传输的效果,只不过会有一种挖耳勺舀水的感觉。。。单条传输:即下面将要讲的增,可以在ES的web平台写代码,或者linux,python,java等开发语言也可以,这里不再细说 批量传输:最常用的是大数据平台的数据交换,当然也可以通过其他开发语言。ES与大数据平台之间的互相传输见我另一篇 付费文章(没办法,我也要恰饭的鸭~)啾~这是一个传送点2 增删改查ES作为一个极致...原创 2020-07-20 17:13:00 · 523 阅读 · 0 评论 -
dataocean平台用继承spark的python脚本来实现抓取es数据到hive
在大数据生态里,ES作为一个极致搜索平台,可依据json格式快速在线查询过滤以及修改数据,由于json数据是半结构化数据,所以从hive数仓数据交换到es很简单,但是从es交换到hive就需要对应字段切分,现在基本上使用的都是scala,java来实现,虽然这些语言是多线程的,也能实现很多功能需求,但同样的开发难度和维护难度也上去了。你需要配置环境,比如连接es的,数据导入hive的,这些常用maven来实现阿里云这些还好,可以在网上下载相关包,但是对于一些定制化的大数据平台,你只能离线配置相关原创 2020-07-07 18:33:15 · 474 阅读 · 0 评论 -
HiveSQL的字符切分:substr与instr的完美结合
在sql查询中,诸如substr,left,right等字符切分函数的应用场景非常大,只需要指定字符,开始序位,结束序位就能很方便的切分得到我们想要的结果,但是对于数据序位不统一的,比如一个name字段里有%test1#,%test#,%fshkfjdshfkds#,我们想要两个%里的结果,只不过%的序位不是唯一的,就不能直接substr了这时候就需要我们的强大函数instr,该函数是返回某字符在字符串里的序位,比如instr('test1','e') 则返回2那么我们把substr与instr结合原创 2020-07-07 16:00:46 · 4077 阅读 · 0 评论 -
hivesql实现多行转一行中的collect_list与collect_set的区别
行转列是sql中常用语法,通常最普遍的做法是使用max,sum再配合case when 来做到,见之前一个blog:是的我又来推销我的blog哈哈哈哈哈嗝儿~而对于多行转一行的可以使用函数来实现,由于现在hive,spark 使用较为普遍,这里我们拿里面的两个函数collect_list和collect_set来举例说明,MySQL里也有对应的多行转一行——group_concatcollect_list和collect_set都是用来做多行结果转到一行的,他们的区别是前者不去重,后者去重,(不难理原创 2020-05-13 16:00:11 · 6249 阅读 · 0 评论 -
DataX运行时报错:jdbc4.MySQLNonTransientConnectionException:Could not create database server
出现这个问题我是一脸懵逼的,因为datax作为一个牛逼的ETL工具使用了好几年,第一次碰见这样的问题,简单讲一下我的处理过程第一感觉是源MySQL数据库的问题,因为之前也遇到过这个问题,是too many connections连接数过多拒绝连接,解决办法是调大数据库连接数或者关闭其他连接或者直接重启就可以,于是下意识的也重启了MySQL,结果还是不行沉静下来冷静分析应该是java的问题,...原创 2020-05-05 15:41:47 · 1373 阅读 · 1 评论 -
Java实现kakfa数据消费并把数据导入到数据库
fighting for dream原创 2020-04-23 17:27:38 · 5148 阅读 · 7 评论 -
大数据Spark SQL常用语言
建表-- 分区表建表create table if not exists project1.test1_liqb_dt ( id bigint comment 'id', name string comment '姓名')partitioned by ( ds bigint comment '日分区')comment 'test'lifecycle 31 ;...原创 2020-04-03 16:49:00 · 1798 阅读 · 5 评论 -
大数据平台数仓如何配置udf
udf即自定义函数,适用于一般的函数无法满足当前工作需要或者特定场景需求等所应运而生的工具函数本文拿汉字匹配来举例,udf一般可以用python和java来编写,java用的比较多,对平台的适应性也更好,但python udf开发难度低在java IDEA里进行udf 开发首先写好汉字匹配的java脚本,该脚本无需写main函数,直接写public函数即可,其他要求以各大数据平台为准,...原创 2020-04-03 16:47:46 · 709 阅读 · 0 评论 -
Java IDE基于阿里云maven建工程项目
我们在java开发时有时需要导入很多包,比如hive,spark,kafka等,这些虽然可以通过离线包来下载import,但始终不方便,而通过maven来import就很方便,它可以自动帮你下载所需包。不过初始的maven来源于国外,下载速度和质量不能保证,我们可以使用阿里云maven并进行相关工程项目开发配置阿里云maven下载maven:https://maven.apache.org...原创 2020-03-19 17:02:37 · 772 阅读 · 0 评论 -
大数据hive数仓平台如何通过文件导入导出数据
文本文件数据导入首先把文件转成csv的格式(推荐是csv,并不一定非要是csv,txt,excel也可以,但稳定性不如csv),字符编码推荐utf8然后在资源管理里选择上传资源-,把你的文件上传到平台,例如叫demo.csv上传完之后就可以写sql把数据导入到表里了(导入的目标表需要先建表,且结构与文本文件里的一致)...原创 2020-03-13 15:13:33 · 724 阅读 · 0 评论 -
大数据Spark Sql中日期转换FROM_UNIXTIME和UNIX_TIMESTAMP
众所周知,数字整型用来大小比较和计算运算要比字符型快的多,因此部分业务需要把时间字段转化为整型方便业务的快速计算和到达,这个整形数字是选定的日期距UTC时间'1970-01-01 00:00:00'开始的秒数,目前为十位,比如常用来举例的1234567890,但毕竟数字不方便观察,后续还需要把这些时间数字转换为真正的时间字段这里就需要两个函数来进行转换UNIX_TIMESTAMP和FRO...原创 2020-02-26 17:54:41 · 12040 阅读 · 0 评论 -
Kafka实战配置操作手册shell版
神芷迦蓝寺,江楼月美人原创 2019-12-25 16:10:57 · 890 阅读 · 0 评论 -
linux系统实现DataX任务进程多并发以及自定义并发数
下面是我之前用datax任务多并发数据上云时写的shell脚本(已进行精简),注释比较详尽运行方式 ./ty_commit_task_to.sh 10 其中10代表并发任务量,可根据自身服务器的CPU等配置进行合理输入数值大家有需要进行其他并发进程时也可采用这个模板#!/bin/bash############################################...原创 2019-12-16 21:11:42 · 4070 阅读 · 0 评论 -
基于OGG和Datahub的阿里流计算Flink平台简介
平台简介在传统的数据处理流程中,总是先收集数据,然后再把数据放到DB中,等到需要的时候再进行相关处理,这种模式不适合某些需要实时数据的应用平台,例如税务的实时申报率,这种采用MR等离线处理并不能很好的解决问题,于是新的数据计算结构:Flink流计算应时而生,它可以对大规模流动数据在不断变化的运转过程中实时的进行分析,加工并把结果发送到下一节点这里依照阿里流计算平台进行相关知识的分享和探讨...原创 2018-10-19 21:01:47 · 2964 阅读 · 5 评论 -
基于ODPS的大数据应用源端感知设计与脚本
背景介绍:大数据云平台如ODPS是离线计算平台,其内含表结构在初始化时就已经固定,而源端的ORACLE,MySQL等都是云下实时在线数据库,云上云下无法形成统一的感知交互和事后处理,一旦源端表结构发生变化,而云平台又未及时获知,对后续的应用业务,OGG,流计算等都会造成不小的麻烦,时间越长需要补做的数据就越多,对业务的影响也就越大,甚至需要重新初始化,加大人力成本和时间成本。表结构变化包括:列字段...原创 2018-09-12 15:42:06 · 687 阅读 · 5 评论 -
简单理解Hadoop和Spark的区别
Hadoop和Spark都是大数据计算平台,他们的区别如下存储:Hadoop有自己的一套线下存储集群;Spark没有存储集群,所以Spark需要和一个云计算平台相结合,一般都是和Hadoop相结合 计算性能:Hadoop基于MapReduce来运行计算,MapReduce可以简单理解为:一个人数一堆散牌里有多少个红桃比较慢,但是你把这堆牌分给几个人一起去数,这叫Map,然后把这几个人的结果汇...原创 2018-09-11 09:27:10 · 733 阅读 · 0 评论 -
基于阿里云MaxComputer的外部互联网数据上云方案
数据上云不仅仅是上那些纯粹的结构化数据,一些半结构化的数据,甚至视频,图片这些非结构化数据也需要应用,因此也诞生了很多存储这些数据的数据库等等,例如基于Nosql的HybirdDB,本文着重介绍下如何把半结构化数据上云到ODPS互联网爬虫爬出来的数据可以直接爬到数据库,但是有时候数据库比较死板,无法数据迁移,比如内外网数据不通,这时候就需要一个中转,一般是把这些文件转存成半结构化csv格式进行...原创 2020-11-20 18:40:51 · 1224 阅读 · 0 评论 -
基于阿里云的大数据名词解释(定期补更)
数据库系列ODPS:即MaxComputer,是一种大数据计算服务,仅储存表,适用于100G以上的大规模数据计算和存储,有sql,MapReduce等多种计算类型和算法,支持UDF,BASE调度等数据处理分析工具,数据安全,低成本 ADS:分析型数据库(AnalyticDB 原ADS)是一种高并发低延时的PB级实时数据仓库,全面兼容MySQL以及SQL语法标准,可以毫秒级针对万亿级数据...原创 2018-07-02 10:31:56 · 1088 阅读 · 0 评论 -
阿里云产品ODPS的简介和使用方法
众所周知,原始的数据仓库存在着“存不了,装不下,算不动”的三大严重问题,为了解决越来越多的数据量和越来越繁杂的数据关系,大数据应运而生。在大数据云时代来临之际,掌握了完美的数据处理工具,譬如hadoop,oracle,ogg这些必将会给你带来不错的收益,而今天我们着重讲一下阿里的两大产品dataX和ODPS。*******************************************...原创 2018-06-27 17:04:14 · 15946 阅读 · 1 评论 -
阿里云开源产品DataX的简介和使用
众所周知,原始的数据仓库存在着“存不了,装不下,算不动”的三大严重问题,为了解决越来越多的数据量和越来越繁杂的数据关系,大数据应运而生。在大数据云时代来临之际,掌握了完美的数据处理工具,譬如Hadoop,ORACLE,OGG这些必将会给你带来不错的收益。这里讲一下大数据ETL工具DataX,市面上与之相似对应的有Sqoop,Kettle等DataX是阿里数据上云的一个工具,支持本地传本地,本地...原创 2017-09-28 09:32:51 · 2811 阅读 · 2 评论 -
大数据增量采集OGG&Adapter的安装部署与相关配置
目 录 1. 简介 1.1. 目的 1.2. 定义、业务术语、缩略语 1.3. 参考资料 1.4. 原理特点 2. 安装使用 2.1. 下载安装 2.2. 双端配置 2.2.1. 源端数据库配置 2.2.2. 源端mgr配置 2.2.3. 源端extract配置 2.2.4. 源端pump配置 2.2.5. 生成de原创 2020-11-20 18:41:59 · 3408 阅读 · 15 评论 -
Hadoop生态系统组件最全介绍
开源改变世界,拥抱开源,拥抱未来Hadoop生态系统组件介绍,掌握吹x大法,走到哪里都不怕图片来自bing,跟视觉中国没关系,嗯,很严肃的声明 功能模块 产品名称 产品简述 关键技术 HDFS 分布式文件系统 MapReduce 数据处理编程:map(数据拆分),shuffle(数据排序分发),reduce(数据合并) YAR...原创 2019-04-19 11:15:34 · 1822 阅读 · 3 评论 -
大数据之路之为什么要用大数据
数据自古就存在古代从结绳记事到仓颉造字到甲骨八卦再到蔡伦制纸近代从1800年第一块伏特电池到1946年人类发明第一台电脑现代从世纪初开发出Hadoop生态到十三五计划把大数据上升到国家级战略数据作为一种资源自古就存在着,尤其到了近现代,数据通过电子化,数字化无线增值,人类存储的数据量以指数级在增长,数据传输速度也从天级到秒级甚至毫秒级4G让短视频,直播走上风口浪尖,而5G元年的...原创 2019-07-18 11:22:05 · 1392 阅读 · 0 评论 -
大数据之路之交通大数据应用总体架构设计
上期简单介绍了大数据,了解了大数据应用的可行性与必然性,事实上也的确如此,大数据在公共管理(某省的最多跑一次),教育行业(某省交通厅大数据建设),税务行业(某省税务大数据平台应用建设),信息管理(某省人口库建设)等等方面都有很多建树,本文以智慧交通为主题介绍下主流大数据应用的总体架构设计云服务首先了解下基于云计算的三种服务模式,现在的大数据总体架构基本上都是基于此来设计云服务架构...原创 2019-07-18 13:51:12 · 9526 阅读 · 1 评论 -
大数据之路之数据上云解决方案(全量)
定义:数据上云又称数据采集,数据集成,数据迁移,是大数据架构中的最基础也是最根本的一环,从性质上来讲属于ETL中的一部分操作,即把数据从一个地方迁移汇总到另外一个地方。数据上云解决了信息孤岛问题,解决了信息不对称问题,即”车同轨书同文“,同时把数据迁移到云计算平台,对后续数据的计算和应用提供了第一步开山之路难点:数据上云如何做到在数量上,质量上保持无误? 数据上云如何解决不同平台的网络,...原创 2020-11-20 18:41:34 · 6308 阅读 · 1 评论 -
大数据之路之数据上云解决方案(增量)
上篇说到全量数据上云,这里继续讲增量为什么要用到增量?因为小数据库还好,数据量大的,每一次都要全量既对存储压力巨大,也对上云效率产生弊端,每次都要上全量代价太大了,所以这时候为什么不考虑全量+增量=全量的模式呢,即如果某库数据是一天一调度,那就是昨天的全量+今天的增量=今天的全量,如此一来只需要第一次上一份全量,后续每次的调度只抽取增量即可难点:如何获取到云下数据库的增量数据 如何保...原创 2020-11-20 18:41:17 · 2624 阅读 · 0 评论 -
大数据之路之平台数据开发规范
一 数据开发规范命名标准这个命名包含了表命名,项目命名,作业命名等,拿表名来说,一般都是按系统来为首,业务做次之,接着是表名,最后还加上一些备注信息,demo是 系统_业务_表名_备注,比如来自外部互联网的一条用于监控的每日更新的日志表HLW_JK_LOG_RT,不过具体命名以实际业务来定,唯一需要认真的就是无论是表,项目,还是作业资源这一类的命名都要统一一致,方便后续开发以及管理脚本规...原创 2019-07-20 22:32:08 · 4197 阅读 · 0 评论 -
大数据之路之如何构建数据仓库(上云-建模-应用)
从数据上云到主题建模再到应用展现,一体化解释如何构建一个数据仓库原创 2019-10-04 23:55:52 · 760 阅读 · 0 评论 -
阿里云平台工具汇总整理与最佳实践
篇首语:前面概论,后面详谈,废话少说,直接干货概论 工具类型 工具名称 工具特点 最佳实践 对应开源 数据采集 DataX ① 离线数据传输同步 ② 万源皆可传 RDBMS数据库上云;互联网数据上云;部分云平台数据传输下载 Kettle DTS ①数据迁移,结构迁移 ②实时数据订阅 ③实时数据同步 阿里双十...原创 2019-03-21 15:47:25 · 1011 阅读 · 0 评论