其他
没有合适的昵称
个人工作学习笔记
展开
-
collect_set 踩坑点
collect_set之后再collect_set是不能将里面的字段给展开的原创 2020-04-28 09:00:53 · 2512 阅读 · 0 评论 -
传统数据库的数据怎么实时导入到HDFS中
注意:这里的传统数据库一般是指传统的关系型数据库,比如Oracle、MySQL、SQL Server、DB2等将传统数据库实时导入到HDFS的方法一般是两种:1.准实时的发起增量SQL查询,然后将查询到的增量数据导入到HDFS中2.实时的监控数据库的增量的日志数据,然后将增量的日志数据实时导入到HDFS中以下分别看下上面两种方式的流程以及优缺点准实时的发起增量SQL查询的方式要从传统数...原创 2019-09-08 09:22:41 · 3871 阅读 · 0 评论 -
canal同步MySQL的数据
canal是什么?canal是阿里巴巴的一个开源项目,其作用就是:模拟MySQL的从节点,从而达到数据的同步作用原理图如下:这种方式对比flume和sqoop的优点是:不影响源数据库可以识别新增数据,也可以检测到删除或者更新的数据不要求源数据库必须有用于表示增量的字段...原创 2019-09-08 09:22:53 · 1771 阅读 · 0 评论 -
如何数据重跑
离线任务,数据重跑是很正常的事情,比如程序跑着跑着就挂掉了,比如跑出来的数据不正确,需要检查后重跑但是重跑的时候,需要注意的地方是,会不会有数据已经写入hbase了,或者hive的当天分区是否已经存在数据了hive有数据的话,这点倒不用太在意,因为在导数据之前,我们通常会先删除当天的文件数据(不删会报错):hadoop fs -rm -r /user/hive/warehouse/web.d...原创 2019-09-15 11:28:06 · 3345 阅读 · 0 评论
分享