背景介绍
Hadoop提供了一个中央化的存储系统
有利于进行集中式的数据分析与数据共享
Hadoop对存储格式没有要求:
用户访问日志
产品信息
网页数据等
如何将数据存入Hadoop:
数据分散在各个离散的设备上
数据保存在传统的存储设备和系统中
常见的两种数据来源
分散的数据源:
机器产生的数据;
用户访问日志;
用户购买日志。
传统系统中的数据:
传统关系型数据库:Mysql、Oracle等;
Hadoop收集和入库基本要求
分布式
数据源多样化
数据源分散
可靠性
保证不丢数据
允许丢部分数据
可扩展
数据源可能会不断增加
通过并行提高性能
数据收集
Flume
Kafka
Scribe
传统数据库与Hadoop同步
Sqoop
Flume
Flume OG
OG:“Original Genaration”
0.9.x或cdh3以及更早版本
由agent、collector、master等组件构成
Flume NG
NG:“Next/New Generation”
1.x或cdh4以及之后的版本
由Agent、Client等组件构成
为什么要推出NG版本
精简代码
架构简化
Flume OG基本架构
Flume NG基本架构