大数据最佳学习路线

最新推荐文章于 2024-05-01 20:45:59 发布

搁浅记忆

最新推荐文章于 2024-05-01 20:45:59 发布

阅读量1.5k

点赞数 2

分类专栏：闲聊文章标签：大数据 hadoop big data

本文链接：https://blog.csdn.net/huangyuhuangyu/article/details/80346588

版权

一，题记

要说当下IT行业什么最火？ABC无出其右。所谓ABC者，AI + Big Data + Cloud也，即人工智能、大数据和云计算(云平台)。每个领域目前都有行业领袖在引领前行，今天我们来讨论下大数据Big Data这个方向。如果您感觉阅读文字太累，可以点击下面音频！

二，大数据里面的角色

角色一：大数据工程

大数据工程需要解决数据的定义、收集、计算与保存的工作，因此大数据工程师们在设计和部署这样的系统时首要考虑的是数据高可用的问题，即大数据工程系统需要实时地为下游业务系统或分析系统提供数据服务；

角色二：大数据分析

大数据分析角色定位于如何利用数据——即从大数据工程系统中接收到数据之后如何为企业或组织提供有产出的数据分析，并且确实能够帮助到公司进行业务改善或提升服务水平，所以对于大数据分析师来说，他们首要解决的问题是发现并利用数据的价值，具体可能包括：趋势分析、模型建立以及预测分析等。

这两类角色相互依存但又独立运作，何意？没有大数据工程，大数据分析便无从谈起；但倘若没有大数据分析，我也实在想不出大数据工程存在的理由。这就类似于结婚和谈恋爱——恋爱的目的是为了结婚，且不以结婚为目的的谈恋爱都是耍流氓。

简单总结一下，大数据工程角色需要考虑数据的收集、计算(或是处理)和保存；大数据分析角色则是执行数据的高级计算。

三，大数据工程师

针对角色一：大数据工程说，对应的工作岗位就叫大数据工程师，对于大数据工程师而言，您至少要掌握以下技能：

linux基础

因为大数据体系，基本都是开源软件，这些开源软件都是在开源的linux系统上运行的，所以你必须会基本的linux操作，比如用户管理，权限，shell编程之类的

一门JVM系语言：

当前大数据生态JVM系语言类的比重极大，某种程度上说是垄断也不为过。这里我推荐大家学习Java或Scala，至于Clojure这样的语言上手不易，其实并不推荐大家使用。另外，如今是“母以子贵”的年代，某个大数据框架会带火它的编程语言的流行，比如Docker之于Go、Kafka之于Scala。

因此笔者这里建议您至少要精通一门JVM系的语言。值得一提的，一定要弄懂这门语言的多线程模型和内存模型，很多大数据框架的处理模式其实在语言层面和多线程处理模型是类似的，只是大数据框架把它们引申到了多机分布式这个层面。

笔者建议：学习Java或Scala

计算处理框架：

严格来说，这分为离线批处理和流式处理。流式处理是未来的趋势，建议大家一定要去学习；而离线批处理其实已经快过时了，它的分批处理思想无法处理无穷数据集，因此其适用范围日益缩小。事实上，Google已经在公司内部正式废弃了以MapReduce为代表的离线处理。

因此如果要学习大数据工程，掌握一门实时流式处理框架是必须的。当下主流的框架包括：Apache Samza, Apache Storm, Apache Spark Streaming以及最近一年风头正劲的Apache Flink。当然Apache Kafka也推出了它自己的流式处理框架：Kafka Streams

笔者建议：学习Flink、Spark Streaming或Kafka Streams中的一个

熟读Google大神的这篇文章：《The world beyond batch: Streaming 101》，地址是https://www.oreilly.com/ideas/th ... batch-streaming-101

分布式存储框架：

虽说MapReduce有些过时了，但Hadoop的另一个基石HDFS依然坚挺，并且是开源社区最受欢迎的分布式存储，绝对您花时间去学习。如果想深入研究的话，Google的GFS论文也是一定要读的（[url=]https://static.googleusercontent.com/media/research.google.com/en//archive/gfs-sosp2003.pdf[/url]）。当然开源世界中还有很多的分布式存储，国内阿里巴巴的OceanBase也是很优秀的一个。

笔者建议：学习HDFS

资源调度框架：

Docker可是整整火了最近一两年。各个公司都在发力基于Docker的容器解决方案，最有名的开源容器调度框架就是K8S了，但同样著名的还有Hadoop的YARN和Apache Mesos。后两者不仅可以调度容器集群，还可以调度非容器集群，非常值得我们学习。

笔者建议：学习YARN

分布式协调框架：

有一些通用的功能在所有主流大数据分布式框架中都需要实现，比如服务发现、领导者选举、分布式锁、KV存储等。这些功能也就催生了分布式协调框架的发展。最古老也是最有名的当属Apache Zookeeper了，新一些的包括Consul，etcd等。学习大数据工程，分布式协调框架是不能不了解的，某种程度上还要深入了解。

笔者建议：学习Zookeeper——太多大数据框架都需要它了，比如Kafka, Storm, HBase等

最低0.47元/天解锁文章

搁浅记忆

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
大数据最佳学习路线

一，题记要说当下IT行业什么最火？ABC无出其右。所谓ABC者，AI + Big Data + Cloud也，即人工智能、大数据和云计算(云平台)。每个领域目前都有行业领袖在引领前行，今天我们来讨论下大数据Big Data这个方向。如果您感觉阅读文字太累，可以点击下面音频！二，大数据里面的角色角色一：大数据工程大数据工程需要解决数据的定义、收集、计算与保存的工作，因此大数据工程师们在设计和部署这样...
复制链接

扫一扫