当今时代,大数据、云计算、互联网+,这些名词每天通过各种途径充斥我们的大脑,显然已经全民进入了大数据时代。这个说法是有道理的,从国家层面来看,互联网+,大数据已经被列为国家层面的纲要了。因此,很多的IT人都开始进入大数据了,甚至在学校的学生也已经开始进入学习状态了。然而,很多人都是无头苍蝇,不知道从哪里下手?做为有着10年软件开发经验,3年大数据工作经验的我,借此机会给大家说说如何正确的学习大数据。
学习大数据之前,请务必确认下你的基础技能是否已经就绪,什么是基础技能?简单点说就是没有这个基础技能,你的大数据是没有办法去学习的。以下的基础技能,请对号入座,缺少一项请先学习。
一、基础技能:
1、Linux :熟练使用Linux的基础常用命令
2、网络:了解网络的基本配置
3、JAVA:这个不是必须的,但是如果要想更好的学习大数据,JAVA是不可缺少的知识
4、英语(要求能看懂简单的报错提示)
如果你认为你基础技能都没有问题,那么继续下面的技能:
二、大数据技能(请按次序顺序学习)
1、hadoop
2、HBase
3、Hive
4、Storm
5、Mahout
三、这些技能怎么学?
我非常不推荐那些上手就打环境的,这个是既浪费时间,又浪费精力的,那么到底怎么学呢?
学习hadoop的套路:
1)首先你得去买一本hadoop权威指南(第三版),首先初步的看一遍,不管你是否理解其中的知识,做到有个大概的了解(了解程度10%即可)
2)有了10%的基础后,再去精读一遍hadoop,这时候只需精读HDFS原理、MR的编程(这时候我们仍然没有开始搭建环境,这个不重要,熟手10分钟就搞定的事情)
3)开始搭建伪分布式的环境以及分布式的环境(注意,刚开始学习阶段,不要去做什么NameNode HA 以及ResourceManager HA)
4)开始HDFSAPI学习
5)开始学习MapReduce编程
6)精读hadoop中的yarn这个章节
hadoop学习可以到此结束,有些人会问,那么优化呢?什么时候做优化?我给你的答案是,你不适合,不要以为学了1个月,2个月就做hadoop的优化了。等后续更了解之后再做优化。
学习HBase的套路:
1)看书,hbase权威指南,初读一遍,了解10%
2)搭建hbase伪分布式环境
3)根据API操作HBASE
4)了解下RowKey的设计技巧
Hbase学习到此结束,任然不要谈什么优化,你自己相信你能优化的好吗?反正我不信
其他的内容基本上一致。
最后总结:
学习大数据你必须要了解Linux,必须看书,不要上手就开始搭建环境。