数据采集
数据采集主要包含多场景的数据采集,包含flume,sqoop,datax,flinkx等数据采集技术和实现方式
戚xq
总结过去、深入学习、协同共进!
展开
-
flmue实时增量抽取mysql数据到kafka和hdfs
近期做实时的处理一部分数据,数据在mysql中,但实现方案为kafka+jstorm的方式处理,因此需要把mysql的数据先加载到kafka,同时需要把这份数据备份到hdfs中,因此就想到采用flume的方式,一个数据来源实现数据的多分分发;因此自己也花点时间把这个配置分享出来flume简要描述:http://www.cnblogs.com/zhangyinhua/p/7803486.html...原创 2018-12-11 10:14:59 · 1908 阅读 · 6 评论 -
flume实时写数据到HA模式下的hdfs
上一篇文章写到flume实时抽取mysql数据到kafka和hdfs,但是之前没有考虑到在hdfs是在HA模式下的情况,如果在HA模式下,我们指定了写入地址为:hdfs://cdh2:8020/flume/oracle/topic/test_%Y%m%d,当cdh2是Active状态下是没有问题的,但是当cdh2变成Standby状态后,则数据无法正常写入;为了解决这种问题,我们在flume写入...原创 2018-12-25 10:31:32 · 1440 阅读 · 1 评论