hadoop与spark学习记录（一）

最新推荐文章于 2024-07-29 18:32:05 发布

_飞奔的蜗牛_

最新推荐文章于 2024-07-29 18:32:05 发布

阅读量827

点赞数

分类专栏：大数据技术文章标签：大数据 hadoop spark

本文链接：https://blog.csdn.net/dataningwei/article/details/53575262

版权

大数据技术专栏收录该内容

9 篇文章 0 订阅

订阅专栏

大数据hadoop与spark学习记录（一）

大数据初学者，在网上小象学院查看了一个有关《大数据Hadoop与Spark学习经验》的视频，以下为其中的学习笔记。
1大数据特点：
开源：社区共同讨论一个技术/技术交流重要
更新速度快：源代码是最好的文档，其次是官方文档、百度或书籍内容落伍
极大的知识广度和深度：入门难、实战性强，需要“项目/问题”驱动
2大数据技术体系：
2.1技术框架

大数据技术将数据转化为价值，反馈给用户。
1）数据收集/准备：收集加工/转化
2）数据存储：获得的数据存储于数据库中
3）资源管理：大量机器、资源，需要管理
4）计算框架：spark仅仅是计算引擎
5）数据分析：互联网推荐系统、银行报表、运营商用户行为分析
6）可视化：将分析出来的结果以一种方便显示的方式展示；
以上为理论技术框架，技术实现有很多种，如谷歌云、阿里云，也可以用开源实现，如下：
2.2 hadoop与Spark

3. 如何学习hadoop与spark
3.1 品质
要有好奇心：什么情况下MapReduce比Spark快、Hive是如何把SQL转化为MR的
主动探索精神：查找资料和分析代码/发现MR/Spark作业异常
定期知识梳理：定期梳理知识体系，ppt/word/博客等(个人看)、定期研究一个主题，闭关发表出来（供别人指导）
3.2 整体指导方针
1）找到“切入点”，并以此扩展周边知识
Spark应用（HDFS/YARN/MR）
2）通过问题深入了解细节（问题驱动）
MapReduce/Spark程序为何OOM
3）把离散的知识点，连成“线”
Flume->Kafka->Storm->Redis->可视化
3.3 指导策略
参考资料：官方文档、代码、google，《Hadoop权威指南》
解决问题：社区
技术圈子：社区交流技术、构建自己的技术圈子gitbub等
寻找一个优秀的大数据团队：有比你强的人，带你快速成长
3.4 知识体系
基础：
语言：
面向对象：Java/Scala
脚本语言：Python/Shell
Linux系统
大数据开发技能： Hive/Spark/MR
大数据体系：Kafka,HDFS/
3.5 参加在线课程
日志分析系统，阿里
3.5 大数据开发技能梯度

4如何看待新兴起的技术
4.1
以数据分析为主，收集/存储/资源管理等趋于稳定
重点把握主流，同时关注非主流：主流：Apache Spark,MR
形成自己的观点。MR/Hive/Spark
4.2 计算框架方向的发展方向
批处理与流失处理相结合:Spark/Flink/Apex
存储与计算相结合
OLAP
5.工业界对大数据工程师的要求
1）大数据运维工程师
Hadoop/Spark集群搭建与运维
Hadoop/Spark升级
Hadoop/Spark问题诊断
要求：广度

2）大数据内核开发工程师
优化Hadoop与Spark内核
开发新的大数据系统
3）大数据应用开发工程师
日志分析系统（Hive必须MR）
商品推荐系统
用户行为分析系统