2020-09-29【学习笔记】【企业数据湖】六、基于Apache Flume的流式数据获取(1)

一、数据获取

1、什么是流数据

  • 各种web和应用服务器生成的日志数据
  • 企业网站的用户行为数据
  • 客户在各种社交网络平台上产生的大量数据
  • 来自各种传感器的数据

2、批量数据和流式数据

批处理数据获取用sqoop,流式数据获取 用flume

3、流式数据获取技术路线图

 

4、什么是flume

flume本意指通过修建渠道。利用渠道的能力从山上运输木材。

这里指从数据源传输大量数据到目的地

二、为什么使用flume

1、flume简史

flume是由cloudera公司开发的,专门用于处理和迁移海量数据到hadooo,可以以极低甚至无延迟的方式将数据存至hadoop以便进行分析。

2、flume的优势

  • 开源
  • 有很好的文档编制
  • 高吞吐,低延迟
  • 声明式配置
  • 天然的支持分布式
  • 高可靠、高可用、可水平伸缩
  • 高度可扩展性和可定制性
  • 极低的安装操作,维护成本
  • 有合适的路由
  • 内置支持多种数据源和目标系统
  • 原生高度可拔插
  • 功能丰富
  • 内置支持事务
  • 能够将多个服务器的数据轻松导入hadoop
  • 支持不同的数据流,诸如多跳,扇出,扇入等
  • 良好的集成和支持各种现有的监控工具

3、flume劣势

  • 较弱的顺序保证
  • 不能保证到达信息的唯一性
  • 较难的硬件选型
  • 依赖于后备存储系统

三、flume的框架原则

可靠性

可伸缩性

可管理性

可扩展性

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值