大数据(hadoop-flume的原理架构)

背景介绍

Hadoop提供了一个中央化的存储系统
   有利于进行集中式的数据分析与数据共享

Hadoop对存储格式没有要求:
   用户访问日志
   产品信息
   网页数据等

如何将数据存入Hadoop:
   数据分散在各个离散的设备上
   数据保存在传统的存储设备和系统中
 

常见的两种数据来源

分散的数据源:
   机器产生的数据;
   用户访问日志;
   用户购买日志。

传统系统中的数据:
   传统关系型数据库:Mysql、Oracle等;

Hadoop收集和入库基本要求

分布式
   数据源多样化
   数据源分散

可靠性
   保证不丢数据
   允许丢部分数据

可扩展
   数据源可能会不断增加

通过并行提高性能

数据收集
   Flume
   Kafka
   Scribe

传统数据库与Hadoop同步
   Sqoop
 

Flume

Flume OG
   OG:“Original Genaration”
   0.9.x或cdh3以及更早版本
   由agent、collector、master等组件构成

Flume NG
   NG:“Next/New Generation” 
   1.x或cdh4以及之后的版本
   由Agent、Client等组件构成

为什么要推出NG版本
   精简代码
   架构简化
 

Flume OG基本架构

6fc64feb4a64363e7ea61f74465143a71bb.jpg

 

Flume NG基本架构

4882d29aa257daef87aa874e18ce1e7118a.jpg

 

 

 

 

 

 

转载于:https://my.oschina.net/u/3728166/blog/3061770

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值