Hadoop ecosystem notes (all components)

Index:

http://hadoop.apache.org

HBase?: A scalable, distributed database that supports structured data storage for large tables.
Hive?: A data warehouse infrastructure that provides data summarization and ad hoc querying.

 

 

Another link to introduce things inside hadoop ecosystem:

http://smartdatacollective.com/mtariq/120791/hadoop-toolbox-when-use-what

Hadoop is HDFS and MapReduce

HBase is more realtime use case

Hive is warehousing use and under the hood it runs MapRed jobs which means it generally needs few minutes to give you back the result

Pig is PigIntercepter and PigLatin lanuage, suitable for dataflow which it will do a lot of transformation;under the hood it runs MapRed jobs

Sqoop is a tool can transfer data between hadoop (hdfs, hive, hbase,) and RMDBS

Oozie is a workflow scheduler system which chains multiple MapReduce jobs together to achieve a goal , and runs sometime

Chukwa are data aggregation tools

Avro is a data serialization system


 

just a link - how to use hadoop in eclipse

http://blog.csdn.net/savechina/article/details/5656937

http://www.taobaotesting.com/blogs/qa?bid=10659


数据库: OLTP实时在线系统事务处理,用来存储此类型数据,一般数据都比较原始,并不适合用于做管理决策的数据分析。

数据仓库: 将数据库的数据进行“清洗”,重新组织存放,定期更新,生成适用于反映一定时期内的业务决策数据。

http://ms.sit.edu.cn/s/8/t/157/a/15382/info.jspy

浅析数据仓库与数据库的区别
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
所谓的(1) 面向主题:指数据仓库中的数据是按照一定的主题域进行组织。
(2)集成:指对原有分散的数据库数据经过系统加工, 整理得到的消除源数据中的不一致性。
(3)相对稳定:指一旦某个数据进入数据仓库以后只需要定期的加载、刷新。
(4)反映历史变化:指通过这些信息,对企业的发展历程和未来趋势做出定量分析预测。
数据仓库建设是一个工程,是一个过程,而不是一种可以购买的产品。企业数据处理方式是以联机事务处理形式信息,并利用信息进行决策;在信息应用过程中管理信息。
 数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管
理系统来管理的。数据仓库与数据库的主要区别在于:
(1)数据库是面向事务的设计,数据仓库是面向主题设计的。
(2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 
(3)数据库设计是尽量避免冗余,数据仓库在设计是有意引入冗余。 
(4)数据库是为捕获数据而设计,数据仓库是为分析数据而设计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值