![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flume
文章平均质量分 94
记录日常学习Flume过程中的知识点以及问题
想做CTO的任同学...
好好规划自己的路,不要跟着感觉走......
展开
-
数据采集工具Flume——应用案例
实时监控一批文件,并记录每个文件最新消费位置,agent进程重启后不会有数据丢失的问题。其不会对于跟踪的文件有任何处理,不会重命名也不会删除,不会做任何修改。spooldir Source监听一个指定的目录,即只要向指定目录添加新的文件,source组件就可以获取到该信息,并解析该文件的内容,写入到channel。sink处理完之后,标记该文件已完成处理,文件名添加 .completed 后缀。虽然是自动监控整个目录,但是只能监控文件,如果以追加的方式向已被处理的文件中添加内容,source并不能识别。原创 2021-09-15 22:47:24 · 204 阅读 · 0 评论 -
数据采集工具Flume高级特性
如果flush到HDFS的时候,数据flush了一半之后出问题了,这意味着已经有一半的数据已经发送到HDFS上面了,现在出了问题,同样需要调用doRollback方法来进行回滚,回滚并没有“一半”之说,它只会把整个takeList中的数据返回给channel,然后继续进行数据的读写。如 Sink取数据慢,而 Source 放数据速度快,容易造成 Channel 中数据的积压,如果 putList 中的数据放不进去,会如何呢?Flume在数据进行采集传输的时候,有可能会造成数据的重复,但不会丢失数据。原创 2021-09-14 23:17:20 · 488 阅读 · 0 评论 -
数据采集工具——Flume
Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发送方,用于采集数据;Flume提供对数据进行简单处理,并写到各种数据接收方的能力。Flume是实时采集日志的数据采集引擎。原创 2021-09-12 22:19:39 · 610 阅读 · 0 评论