hadoop与spark学习记录(一)

大数据hadoop与spark学习记录(一)
大数据初学者,在网上小象学院查看了一个有关《大数据Hadoop与Spark学习经验》的视频,以下为其中的学习笔记。
1大数据特点: 
开源:社区共同讨论一个技术/技术交流重要
更新速度快:源代码是最好的文档,其次是官方文档、百度或书籍内容落伍
极大的知识广度和深度:入门难、实战性强,需要“项目/问题”驱动
2大数据技术体系:
2.1技术框架
 
   大数据技术将数据转化为价值,反馈给用户。
1)数据收集/准备:收集加工/转化
2)数据存储:获得的数据存储于数据库中
3)资源管理:大量机器、资源,需要管理
4)计算框架:spark仅仅是计算引擎
5)数据分析:互联网推荐系统、银行报表、运营商用户行为分析
6)可视化:将分析出来的结果以一种方便显示的方式展示;
以上为理论技术框架,技术实现有很多种,如谷歌云、阿里云,也可以用开源实现,如下:
2.2 hadoop与Spark
 
3. 如何学习hadoop与spark
3.1 品质
要有好奇心:什么情况下MapReduce比Spark快、Hive是如何把SQL转化为MR的
主动探索精神:查找资料和分析代码/发现MR/Spark作业异常
定期知识梳理:定期梳理知识体系,ppt/word/博客等(个人看)、定期研究一个主题,闭关发表出来(供别人指导)
3.2 整体指导方针
1)找到“切入点”,并以此扩展周边知识
 Spark应用(HDFS/YARN/MR)
2)通过问题深入了解细节(问题驱动)
 MapReduce/Spark程序为何OOM
3)把离散的知识点,连成“线”
   Flume->Kafka->Storm->Redis->可视化
3.3 指导策略
参考资料:官方文档、代码、google,《Hadoop权威指南》
解决问题:社区
技术圈子:社区交流技术、构建自己的技术圈子gitbub等
寻找一个优秀的大数据团队:有比你强的人,带你快速成长
3.4 知识体系
基础:
语言:
面向对象:Java/Scala
脚本语言:Python/Shell
Linux系统
大数据开发技能: Hive/Spark/MR
大数据体系:Kafka,HDFS/
3.5 参加在线课程
   日志分析系统,阿里
3.5 大数据开发技能梯度
 


4如何看待新兴起的技术
4.1
   以数据分析为主,收集/存储/资源管理等趋于稳定
   重点把握主流,同时关注非主流:主流:Apache Spark,MR
   形成自己的观点。MR/Hive/Spark
4.2 计算框架方向的发展方向
 批处理与流失处理相结合:Spark/Flink/Apex
 存储与计算相结合
    OLAP
5.工业界对大数据工程师的要求
1)大数据运维工程师
  Hadoop/Spark集群搭建与运维
     Hadoop/Spark升级
     Hadoop/Spark问题诊断
要求:广度


 2)大数据内核开发工程师
优化Hadoop与Spark内核
  开发新的大数据系统
3)大数据应用开发工程师
日志分析系统(Hive必须MR)
商品推荐系统
用户行为分析系统


      



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值