![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据组件
文章平均质量分 75
L姓数据工程师
人不远行身不壮,火不烧山地不肥
展开
-
Sqoop——全量导入、增量导入
Sqoop是许多公司日常使用的业务数据迁移工具,具有多种数据迁移方式,并且支持自定义数据迁移规则,灵活方便,使用时需要根据具体业务的具体需求,配置不同的数据迁移方式数据导入一般情况下公司的各种需求有很多,不仅仅是数据迁移工作,需要结合实际业务全量导入增量导入数据导出...原创 2020-10-17 17:18:32 · 3050 阅读 · 1 评论 -
Flume组件——grouping processor(failover sink processor—实现级联模式下的高可用)
Flume中有多个组件,其中最重要的一个组件就是grouping processor / sink processorsink process原创 2020-10-08 15:31:51 · 343 阅读 · 0 评论 -
Flume案例——自定义interceptor处理数据,并使用mutilplexing selector将数据分路存储
实际需求:将多个日志文件中的数据分类处理,采集出不同业务的数据,然后分路存储主要知识点:自定义interceptor 使用multiplexing selector将数据分路存储1.模拟日志生成器可以写一个shell脚本,模拟生成日志数据,规定日志数据格式:uid,behavior,type,timestampwhile truedoif [ $(($RANDOM % 2)) -eq 0]thenecho "u$RANDOM,e1,shop,`date +%s`000" &原创 2020-10-08 09:37:08 · 329 阅读 · 0 评论 -
Flume生产环境配置
1.解压flume到指定文件夹tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /opt/apps2.启动HDFS集群start-dfs.sh3.写脚本模拟日志生产while true ; do echo $RANDOM >> a.log ; sleep 0.01 ; done //循环产生随机数写入到a.log中4.配置flume中agent的相关配置信息a1.sources = r1 --source的名字原创 2020-10-06 21:20:38 · 430 阅读 · 0 评论