一、数据获取
1、什么是流数据
- 各种web和应用服务器生成的日志数据
- 企业网站的用户行为数据
- 客户在各种社交网络平台上产生的大量数据
- 来自各种传感器的数据
2、批量数据和流式数据
批处理数据获取用sqoop,流式数据获取 用flume
3、流式数据获取技术路线图
4、什么是flume
flume本意指通过修建渠道。利用渠道的能力从山上运输木材。
这里指从数据源传输大量数据到目的地
二、为什么使用flume
1、flume简史
flume是由cloudera公司开发的,专门用于处理和迁移海量数据到hadooo,可以以极低甚至无延迟的方式将数据存至hadoop以便进行分析。
2、flume的优势
- 开源
- 有很好的文档编制
- 高吞吐,低延迟
- 声明式配置
- 天然的支持分布式
- 高可靠、高可用、可水平伸缩
- 高度可扩展性和可定制性
- 极低的安装操作,维护成本
- 有合适的路由
- 内置支持多种数据源和目标系统
- 原生高度可拔插
- 功能丰富
- 内置支持事务
- 能够将多个服务器的数据轻松导入hadoop
- 支持不同的数据流,诸如多跳,扇出,扇入等
- 良好的集成和支持各种现有的监控工具
3、flume劣势
- 较弱的顺序保证
- 不能保证到达信息的唯一性
- 较难的硬件选型
- 依赖于后备存储系统
三、flume的框架原则
可靠性
可伸缩性
可管理性
可扩展性