我的大数据之路(一)

    开始做公司的数据平台了,真心喜欢这个玩意儿。先从基础理论开始学吧,数据挖掘,数据仓库,hadoop,spark。。。

    目前市面上的大数据解决方案包括开源的hadoop、微软的sql server、google的新三驾马车caffeine、megastore、gfs系统等。当下国内最炙热的大数据架构非hadoop莫属了。

先放一张hadoop的架构图:


1、zookeeper

注册中心,用来做为服务发现工具

2、hbase

分布式列式数据库,主要用于数据查询,它的所有crud操作都是insert操作,适合大量查询和插入数据的场景。

3、hive

数据仓库,提供了一系列工具,用于提取、转换、加载数据,但不支持更新、索引、事务。同时它还提供sql到mapreduce的转换。

4、pig

数据流语言,可以用它轻松处理大量数据。用于对hbase和hdfs中的数据做转换并提供查询。

5、hdfs

hadoop分布式文件系统,它是和ntfs、fat一样的同一类东西。但它是专门为分布式环境设计的文件系统

6、map reduce

分布式计算框架,在它之上运行的job可以通过人工编写、hive、pig生成,map函数将job拆分成多个job分发到hadoop集群中运行,计算结果传递给reduce函数进行合并并输出结果。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值