开始做公司的数据平台了,真心喜欢这个玩意儿。先从基础理论开始学吧,数据挖掘,数据仓库,hadoop,spark。。。
目前市面上的大数据解决方案包括开源的hadoop、微软的sql server、google的新三驾马车caffeine、megastore、gfs系统等。当下国内最炙热的大数据架构非hadoop莫属了。
先放一张hadoop的架构图:
1、zookeeper
注册中心,用来做为服务发现工具
2、hbase
分布式列式数据库,主要用于数据查询,它的所有crud操作都是insert操作,适合大量查询和插入数据的场景。
3、hive
数据仓库,提供了一系列工具,用于提取、转换、加载数据,但不支持更新、索引、事务。同时它还提供sql到mapreduce的转换。
4、pig
数据流语言,可以用它轻松处理大量数据。用于对hbase和hdfs中的数据做转换并提供查询。
5、hdfs
hadoop分布式文件系统,它是和ntfs、fat一样的同一类东西。但它是专门为分布式环境设计的文件系统
6、map reduce
分布式计算框架,在它之上运行的job可以通过人工编写、hive、pig生成,map函数将job拆分成多个job分发到hadoop集群中运行,计算结果传递给reduce函数进行合并并输出结果。