在了解Hadoop之前首先需要对计算机内存当中的数据计量单位有所了解,计算机中
1024b = 1k
1024k = 1m
1024m = 1g
1024g = 1t
1024t = 1p
1024p = 1e
1024e = 1z
1024z = 1y
在对计算机的计量单位有一定了解后我们就可以进一步的去感受大数据的数据之庞大:根据IDC作出的估测,数据一直以每年50%的速度增长,也就意味着数据每两年就增长一倍。 人类在近两年产生的数据相当于之前产生的全部数据量。预计到2020年,全球将总共拥有35ZB。而数据还将以指数形式迅速增长
而大数据就是为了解决海量数据的存储以及计算。
大数据正在对我们的生活方式产生越来越大的影响。学习大数据我们最终要做的是努力发现对人们有意义的东西,并将其与他们的经济行为联系起来。
学习大数据大概有以下内容。我会一边学习hadoop,一边归纳总结。有想一起学习hadoop的小伙伴可以一起讨论进步哦。
-
Hadoop 2.X
Apache
CDH
HDFS,YARN,MapReduce -
Hive 大数据的仓库
Hive的元数据;
Hive的数据文件存储在HDFS上;
Hive创建的方式;
如何把数据加载到HDFS上;
把hive中的数据导出来;
Hive中的join优化;
Hive中的数据倾斜; -
协作框架
Sqoop
Flume -
HBase
架构 -
Spark基于内存的
RDD的架构问题
Spark的调度 -
CM5.x CDH5.X
-
Zookeeper
分布式协作框架
集群安装配置
集群时间同步