大数据工程师技能要求的学习路线图

一、大数据相关工作介绍

大数据方向的工作目前主要分为三个主要方向:

1. 大数据工程师

2. 数据分析师

3. 大数据科学家

4. 其他(数据挖掘等)

二、大数据工程师的技能要求

附上大数据工程师技能图:

在这里插入图片描述

必须掌握的技能11条

1. Java高级(虚拟机、并发)

2. Linux 基本操作

3. Hadoop(HDFS+MapReduce+Yarn )

4. HBase(JavaAPI操作+Phoenix )

5. Hive(Hql基本操作和原理理解)

6. Kafka

7. Storm/JStorm

8. Scala

9. Python

10. Spark (Core+sparksql+Spark streaming )

11. 辅助小工具(Sqoop/Flume/Oozie/Hue等)

高阶技能6条

1. 机器学习算法以及mahout库加MLlib

2. R语言

3. Lambda 架构

4. Kappa架构

5. Kylin

6. Alluxio

三、学习路径

加米谷大数据理论+代码+实战+实操的独有课程体系,下面是加米谷的0基础大数据开发课程大纲:

第一阶段:Java设计与编程思想

学习内容:Java设计与编程思想

学习目标:Java基础、Java面向对象、Java高级、数据库与JDBC

学习效果:熟练掌握Java语法并灵活运用,能够开发后台应用

第二阶段:Web前端开发

学习内容:Web前端开发

学习目标:HTML基础、CSS3基础、JS脚本编程

学习效果:能够基于HTML+CSS+JQuery进行前端开发

第三阶段:JavaEE进阶

学习内容:JavaEE进阶

学习目标:JavaWeb后端开发、SSM框架

学习效果:掌握主流JavaWeb框架并灵活运用

第四阶段:大数据基础

学习内容:大数据基础

学习目标:Linux基础、Maven基础

学习效果:熟练掌握Linux及Maven等相关知识并灵活运用

第五阶段:HDFS分布式文件系统

学习内容:HDFS分布式文件系统

学习目标:HDFS原理剖析、HDFS编程

学习效果:深入理解HDFS的原理并灵活运用

第六阶段:MapReduce分布式计算模型

学习内容:MapReduce分布式计算模型

学习目标:MapReduce原理剖析、MapReduce实践

学习效果:熟练掌握MapReduce原理并灵活运用

第七阶段:Yarn分布式资源管理器

学习内容:Yarn分布式资源管理器

学习目标:Yarn原理剖析、Yarn实践

学习效果:深入理解Yarn的原理并调优

第八阶段:Zookeeper分布式协调服务

学习内容:Zookeeper分布式协调服务

学习目标:Zookeeper原理剖析、Zookeeper实践

学习效果:深入理解Zookeeper的原理并灵活运用

第九阶段:Hbase分布式数据库

学习内容:Hbase分布式数据库

学习目标:Hbase原理剖析、Hbase编程实践

学习效果:深入理解Hbase的原理并灵活运用及调优

第十阶段:Hive分布式数据仓库

学习内容:Hive分布式数据仓库

学习目标:Hive原理剖析、Hive编程实践

学习效果:深入理解Hive的原理并灵活运用

第十一阶段:FlumeNG分布式数据采集系统

学习内容:FlumeNG分布式数据采集系统

学习目标:FlumeNG原理剖析、FlumeNG编程实践

学习效果:熟练掌握FlumeNG的各种应用场景

第十二阶段:Sqoop大数据迁移系统

学习内容:Sqoop大数据迁移系统

学习目标:Sqoop原理剖析、Sqoop编程实践

学习效果:熟练掌握Sqoop并灵活运用

第十三阶段:Scala大数据黄金语言

学习内容:Scala大数据黄金语言

学习目标:Scala语法剖析、Scala应用实践

学习效果:熟练掌握Scala各种语法并灵活运用

第十四阶段:kafka分布式总线系统

学习内容:kafka分布式总线系统

学习目标:kafka原理剖析、kafka编程实践

学习效果:深入理解kafka原理并灵活运用及调优

第十五阶段:SparkCore大数据计算基石

学习内容:SparkCore大数据计算基石

学习目标:SparkCore核心原理、SparkCore实践

学习效果:深入理解SparkCore原理并灵活运用及调优

第十六阶段:SparkSQL数据挖掘利器

学习内容:SparkSQL数据挖掘利器

学习目标:SparkSQL核心原理、SparkSQL实践

学习效果:熟练掌握SparkSQL的各种应用场景并灵活运用

第十七阶段:SparkStreaming流失计算平台

学习内容:SparkStreaming流失计算平台

学习目标:SparkStreaming核心原理、SparkStreaming实践

学习效果:深入理解SparkStreaming原理及各种应用场景和调优

第十八阶段:SparkMllib机器学习平台

学习内容:SparkMllib机器学习平台

学习目标:SparkMllib算法模型及核心原理、SparkMllib实践

学习效果:熟练掌握SparkMllib的常用算法并灵活运用

第十九阶段:SparkGraphx图计算平台

学习内容:SparkGraphx图计算平台

学习目标:SparkGraphx核心原理、SparkGraphx实践

学习效果:深入理解SparkGraphx的原理并灵活运用

第二十阶段:大数据项目实战

学习内容:大数据项目实战

学习目标:4个大数据项目的实战

学习效果:能够基于所学知识在真实的项目中操练
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
大数据工程师就业培训哪个好?
http://www.duozhishidai.com/article-15082-1.html
大数据工程师培训,需要学习的有哪些课程?
http://www.duozhishidai.com/article-15081-1.html
如何成为一名优秀的大数据工程师
http://www.duozhishidai.com/article-7673-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
  • 5
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
作为一名大数据开发工程师,需要掌握以下技能: 1. 数据库知识:需要熟练掌握SQL语言,以及常用的关系型数据库(如MySQL、Oracle、SQL Server)和非关系型数据库(如HBase、MongoDB、Cassandra)的使用。 2. 大数据技术:需要了解Hadoop生态圈中的各种技术,如HDFS、MapReduce、Hive、Pig、HBase、Spark等,以及它们的使用场景和优缺点。 3. 数据仓库:需要了解数据仓库的基本概念和架构,以及常用的数据仓库工具和ETL工具,如Informatica、DataStage、Talend等。 4. 编程语言:需要掌握至少一门编程语言,如Java、Python、Scala等,并且要能够熟练地使用它们来开发大数据应用程序。 5. Linux操作系统:需要熟练掌握Linux操作系统的基本命令和操作,以及能够熟练地使用Linux服务器搭建大数据应用环境。 6. 数据可视化:需要了解常用的数据可视化工具和技术,如Tableau、QlikView、Power BI等,以及能够使用它们来制作可视化报表。 学习路线: 1. 先学习数据库知识,掌握SQL语言和关系型数据库的使用。 2. 接着学习大数据技术,了解Hadoop生态圈中各种技术的使用和优缺点。 3. 学习数据仓库和ETL工具,了解数据仓库的基本概念和架构,并能够使用ETL工具进行数据抽取、转换和加载。 4. 学习一门编程语言,如Java或Python,并能够熟练地使用它们来开发大数据应用程序。 5. 学习Linux操作系统,掌握基本的Linux命令和操作,以及能够使用Linux服务器搭建大数据应用环境。 6. 最后学习数据可视化工具和技术,了解常用的数据可视化工具和技术,并能够使用它们来制作可视化报表。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值