第一章:第一个Hadoop
第二章:更有效的实施
第三章:Hadoop上的其他数据
第四章:从Hadoop获取数据到另一个地方。
第五章:快速,我的SQL
第六章:一夫多妻制。
第七章:越来越多的分析任务。
第八章:我的数据是实时的。
第九章:我国的外部世界数据
第十章:彩妆机的研究。
阿里百万数据写入:初学大数据合作伙伴学习路线
Ali总部
我想朝大数据的方向前进。我们应该学什么样的技术,什么样的学习路线和大数据都很受欢迎,工作得很好,付出的也很高。学会共享大数据交流组,每天学习视频数据,欢迎加入722680258。如果他感到困惑,由于这些原因,他将进入大数据的方向。好的,我想问一下,你的专业是计算机/软件。你对什么感兴趣?它是计算机专业吗?是否对操作系统、硬件、网络和服务器感兴趣?它是一个对软件开发、编程和编码感兴趣的软件专业吗?它也是数学和统计学的一个专业,尤其是在数据和数字方面。
事实上,这是我要告诉你们的三个方向:大数据、平台构建/优化/操作/维护/监控、大数据开发/设计/体系结构、数据分析/挖掘。请不要问我哪一个更容易,哪个更好,哪个更富有。
大数据4V的特点是:
大量数据,Tb >
有多种类型的数据,结构化的,非结构化的文本,日志,视频,图片,地理位置等。
企业的价值非常高,但需要快速挖掘数据挖掘和机器学习。
处理要求非常高,海量数据的处理需求不再局限于离线计算。
现在,为了应对大数据的特点,开源大数据框架正变得越来越强大。
阿里百万数据写入:初学大数据合作伙伴学习路线
千斤顶马
文件存储:Hadoop HDFS,超光速,KFS
离线计算:Hadoop的MapReduce,星火
风暴流、S4、火花和苍鹭的流动和实时计算
K-V,NoSQL数据库:HBase,ReiIS,MangoDB
资源管理:纱线,Mesos
日志收集:汇,副本,LogSTASH,Kibana
信息系统:卡夫卡,StruMQ,Zrimq,RabByMQ
查询分析:蜂箱,黑色斩首,猪,按Tor,菲尼克斯,SPKSQL,钻孔,弗兰克,麒麟,Druid
分布式协调服务:管理员
集群管理系统:Ganglia,纳吉奥斯的Cloudera,红麻,经理。
数据挖掘,机器学习:TAME,Spark MLLib
数据同步:Sqoop
任务调度:OZIE
阿里百万数据写入:初学大数据合作伙伴学习路线
其中,以上提到的30个,更不用说大师,将使用很少的估计。
就我而言,主要的经验是听取我的观点在第二个方向(开发/设计/架构)。
第一章:第一个Hadoop
1.1学习百度和谷歌
不管你遇到什么问题,你都得自己去寻找。
谷歌是百度的第一选择,而不是过去。
1.2个参考文献更受官方文件的欢迎。
特别是,官方文件总是首选的。
我相信他们大多数是文化人。英语可以做得好,看不见。请参阅第一步。
1.3让Hadoop先运行
Hadoop是第一个存储和计算大数据的人,而大数据开源框架现在主要依赖于Hadoop或Hadoop兼容性。
对于Hadoop,您至少需要知道以下几点:
阿里百万数据写入:初学大数据合作伙伴学习路线
Hadoop 1,Hadoop 2
MapReduce
David Tan Ode门
JobTracker,TaskTracker
纱线,资源管理器
要构建自己的Hadoop,使用第一步和第二步并让它运行。
建议先安装包命令行,而不是安装管理工具。
Hadoop1.0知道它已经完成,现在使用Hadoop 2。
阿里百万数据写入:初学大数据合作伙伴学习路线
1.4尝试使用Hadoop
HDFS目录操作命令;
上传和下载文件命令;
提交运行MapReduce示例程序的提交;
打开Hadoop Web界面,查看作业的运行状态并检查操作日志。
知道Hadoop的系统日志在哪里。
1.5你应该知道他们的原则。
MapReduce:如何划分和征服
HDFS:它的数据是什么;
什么是纱线,它能做什么?;
那扇门是什么?你到底在干什么?;
资源管理者到底在做什么;
阿里百万数据写入:初学大数据合作伙伴学习路线
1.6编写MapReduce程序
请根据一个例子写一个单词计数程序。