大数据学习路线

--文章转自http://blog.csdn.net/an342647823/article/details/40185181


一、Hadoop入门,了解什么是Hadoop
1、Hadoop产生背景
2、Hadoop在大数据、云计算中的位置和关系
3、国内外Hadoop应用案例介绍
4、国内Hadoop的就业情况分析及课程大纲介绍
5、分布式系统概述
6、Hadoop生态圈以及各组成部分的简介
7、Hadoop核心MapReduce例子说明
二、分布式文件系统HDFS,是数据库管理员的基础课程
1、分布式文件系统HDFS简介
2、HDFS的系统组成介绍
3、HDFS的组成部分详解
4、副本存放策略及路由规则
5、NameNode Federation
6、命令行接口
7、Java接口
8、客户端与HDFS的数据流讲解
9、HDFS的可用性(HA)
三、初级MapReduce,成为Hadoop开发人员的基础课程
1、如何理解map、reduce计算模型
2、剖析伪分布式下MapReduce作业的执行过程
3、Yarn模型
4、序列化
5、MapReduce的类型与格式
6、MapReduce开发环境搭建
7、MapReduce应用开发
8、更多示例讲解,熟悉MapReduce算法原理
四、高级MapReduce,高级Hadoop开发人员的关键课程
1、使用压缩分隔减少输入规模
2、利用Combiner减少中间数据
3、编写Partitioner优化负载均衡
4、如何自定义排序规则
5、如何自定义分组规则
6、MapReduce优化
7、编程实战
五、Hadoop集群与管理,是数据库管理员的高级课程
1、Hadoop集群的搭建
2、Hadoop集群的监控
3、Hadoop集群的管理
4、集群下运行MapReduce程序
六、ZooKeeper基础知识,构建分布式系统的基础框架
1、ZooKeeper体现结构
2、ZooKeeper集群的安装
3、操作ZooKeeper
七、Hbase基础知识,面向列的实时分布式数据库
1、HBase定义
2、HBase与RDBMS的对比
3、数据模型
4、系统架构
5、HBase上的MapReduce
6、表的设计
八、HBase集群及其管理
1、集群的搭建过程讲解
2、集群的监控
3、集群的管理
九、HBase客户端
1、HBase Shell以及演示
2、Java客户端以及代码演示
十、Pig基础知识,进行Hadoop计算的另一种框架
1、Pig概述
2、安装Pig
3、使用Pig完成手机流量统计业务
十一、Hive,使用SQL进行计算的Hadoop框架
1、数据仓库基础知识
2、Hive定义
3、Hive体系结构简介
4、Hive集群
5、客户端简介
6、HiveQL定义
7、HiveQL与SQL的比较
8、数据类型
9、表与表分区概念
10、表的操作与CLI客户端演示
11、数据导入与CLI客户端演示
12、查询数据与CLI客户端演示
13、数据的连接与CLI客户端演示
14、用户自定义函数(UDF)的开发与演示
十二、Sqoop,Hadoop与rdbms进行数据转换的框架
1、配置Sqoop
2、使用Sqoop把数据从MySQL导入到HDFS中
3、使用Sqoop把数据从HDFS导出到MySQL中
十三、Storm
1、Storm基础知识:包括Storm的基本概念和Storm应用
场景,体系结构与基本原理,Storm和Hadoop的对比
2、Storm集群搭建:详细讲述Storm集群的安装和安装时常见问题
3、Storm组件介绍: spout、bolt、stream groupings等
4、Storm消息可靠性:消息失败的重发
5、Hadoop 2.0和Storm的整合:Storm on YARN
6、Storm编程实战

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
尚硅谷是一家知名的IT培训机构,提供了丰富的大数据学习资源和课程。以下是基于尚硅谷提供的大数据学习路线的建议: 1. 基础知识:开始学习前,建议先掌握Java编程语言和数据库基础知识,这些对于后续学习大数据技术非常有帮助。 2. 大数据基础:尚硅谷提供了《大数据基础入门》课程,该课程包含了大数据技术的概述、Hadoop生态系统、HDFS分布式文件系统等基础内容。 3. 分布式计算:学习《Hadoop生态系统》课程,深入了解Hadoop的核心组件,如MapReduce、HDFS、YARN等,并掌握基本的Hadoop集群搭建和调优技巧。 4. 数据仓库与数据湖:学习《数据仓库与数据湖》课程,了解数据仓库和数据湖的概念、架构和设计原则,以及常用的数据仓库工具和技术。 5. 大数据实时计算:学习《大数据实时计算》课程,掌握Spark、Flink等实时计算框架的使用,了解流式计算和批处理计算的特点和应用场景。 6. 数据分析与挖掘:学习《大数据分析与挖掘》课程,掌握常用的数据分析和挖掘工具和算法,如机器学习、数据挖掘、推荐系统等。 7. 数据可视化与报告:学习《数据可视化与报表工具》课程,了解Tableau、Power BI等可视化工具的使用,学会将数据分析结果以直观的方式呈现。 尚硅谷还提供了大量的实战项目和案例,可以帮助学员将所学知识应用于实际场景中。此外,他们还提供了一对一的辅导和讨论群,可以与老师和其他学员交流和分享经验。 以上是基于尚硅谷提供的资源和课程所建议的大数据学习路线,你可以根据自己的实际情况和兴趣进行选择和调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值