大数据的领域非常广泛,往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多,这同样使得初学者难以选择从何处下手。本文将为你开始学习大数据的征程以及在大数据产业领域找到工作指明道路,提供帮助。
自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。
如何开始学习大数据?
人们想开始学习大数据的时候,最常问我的问题是,“我应该学Hadoop(hadoop是一款开源软件,主要用于分布式存储和计算,他由HDFS和MapReduce计算框架组成的,他们分别是Google的GFS和MapReduce的开源实现。由于hadoop的易用性和可扩展性,因此成为最近流行的海量数据处理框架。), 分布式计算,Kafka(Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统),NoSQL(泛指非关系型的数据库)还是Spark(Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处)?”
而我通常只有一个答案:“这取决于你究竟想做什么。”
与大数据相关的工作?
(1)大数据系统研发工程师:负责大数据系统研发工作,包括大规模非结构化数据业务模型构建、大数据存储、数据库架构设计以及数据库详细设计、优化数据库构架、解决数据库中心建设设计问题。他们还负责集群的日常运作、系统的监测和配置、Hadoop与其他系统的集成。
(2)大数据应用开发工程师:负责搭建大数据应用平台、开发分析应用程序。他们熟悉工具或算法、编程、包装、优化或者部署不同的MapReduce事务。他们以大数据技术为核心,研发各种基于大数据技术的应用程序及行业解决方案。
(3)大数据分析师:运用算法来解决分析问题,并且从事数据挖掘工作。他们最大的本事就是能够让数据道出真相;此外,他们还拥有某个领域的专长,帮助开发数据产品,推动数据解决方案的不断更新。
(4)数据可视化工程师:具备良好的沟通能力与团队精神,责任心强,拥有优秀的解决问题的能力。他们负责在收集到的高质量数据中,利用图形化的工具及手段的应用,一目了然地揭示数据中的复杂信息,帮助企业更好的进行大数据应用开发,发现大数据背后的巨大财富。
你适合大数据什么方向呢?
现在我们已经了解了行业中可供选择的职业种类,让我们想办法来确定哪个领域适合你。这样,我们才能确定你在这个行业中的位置。通常来说,基于你的教育背景和行业经验可以进行分类。
例1:“我是一名计算机科学毕业生,不过没有坚实的数学技巧。”
你对计算机科学或者数学有兴趣,但是之前没有相关经验,你将被定义为一个新人。
例2:“我是一个计算机科学毕业生,目前正从事数据库开发工作。”
你的兴趣在计算机科学方向,你适合计算机工程师(数据相关工程)的角色。
大数据学习之路
核心是,大部分大数据技术都是用Java或Scala编写的。但是别担心,如果你不想用这些语言编写代码,那么你可以选择Python或者R,因为大部分的大数据技术现在都支持Python和R。
因此,你可以从上述任何一种语言开始。 我建议选择Python或Java。
接下来,你需要熟悉云端工作。 这是因为如果你没有在云端处理大数据,没有人会认真对待。 请尝试在AWS,softlayer或任何其他云端供应商上练习小型数据集。 他们大多数都有一个免费的层次,让学生练习。如果你想的话,你可以暂时跳过此步骤,但请务必在进行任何面试之前在云端工作。
接下来,你需要了解一个分布式文件系统。最流行的分布式文件系统就是Hadoop分布式文件系统。在这个阶段你还可以学习一些你发现与你所在领域相关的NoSQL数据库。
第一:Linux理论
(1)Linux基础;
(2)Linux-shell编程;
(3)高并发:lvs负载均衡;
(4)高可用&反向代理
第二:Hadoop理论
(1)hadoop-hdfs理论;
(2)hadoop-hdfs集群搭建;
(3)hadoop-hdfs 2.x & api ;
(4)hadoop-MR理论 ;
(5)hadoop-MR开发分析;
(6)hadoop-MR源码分析 ;
(7)hadoop-MR开发案例
第三:Hive理论
(1)Hive介绍以及安装 ;
(2)Hive实战
第四:HBase
(1)HBase介绍以及安装 ;
(2)HBase调优
第五: redis理论
(1)redis类型 ;
(2) redis高级
第七: Scala语法
(1)Scala语法介绍;
(2)scala语法实战
第八阶段: Spark理论
(1)Spark介绍;
(2)Spark代码开发流程 ;
(3)Spark集群搭建;
(4) Spark资源调度原理;
(5)Spark任务调度;
(6)Spark案例;
(7)Spark中两种最重要shuffle;
(8)Spark高可用集群的搭建;
(9)SparkSQL介绍;
(10) SparkSQL实战 ;
(11)SparkStreaming介绍;
(12)SparkStreaming实战
要以实践操作为主,结合项目的实践检测,在做项目的过程中发现bug解决bug才能掌握住技术的本身核心要点,希望能帮到您.