大数据零基础就业班学习路线

通过真实企业项目,JAVA高并发、Hadoop、Hive、Scala、Spark、Python、机器学习等大数据技能,实现年薪翻番。

课题内容知识重点备注
Linux理论(4晚)Linux基础操作系统安装自学视频
基础命令使用
软件安装
Linux-shell编程shell:bash基础
脚本实战
高并发:lvs负载均衡网络理论
四层LVS模型理论
LVS实验
高可用&反向代理keepalived
nginx
Hadoop理论(5晚)hadoop-hdfs理论hadoop介绍直播讲座
hdfs存储模型
hdfs架构模型
hdfs角色
hdfs持久化
hadoop-hdfs集群搭建hdfs读写流程
集群搭建配置解析
完全分布式&CLI命令实操
hadoop-hdfs 2.x & apihdfs:ha介绍
hdfs:ha集群搭建
hdfs-api开发
hadoop-MR理论MR架构理论
YARN理论
搭建YARN集群
WordCount运行
hadoop-MR开发&源码分析手写wordcount
MR源码分析:客户端
hadoop-MR源码分析MapTask输入分析
MapTask输出分析
ReduceTask输入分析
hadoop-MR开发案例MR:天气案例
MR:好友推荐案例
hadoop-MR开发案例pagerank案例
tfidf案例
itemcf案例
Hive理论(2晚)Hive介绍以及安装Hive的产生背景直播讲座
Hive架构
Hive 安装
内部表/外部表/分区表
Hive实战案例
Hive参数配置
动态分区/分桶
运行方式/调优
HBase理论(2晚)HBase介绍以及安装Hbase数据模型直播讲座
Hbase架构
Hbase搭建:伪分布式/全分布式
HBase调优Hbase shell
Hbase API
Hbase 调优
Mapreduce hbase 整合
Hadoop项目(5晚)项目需求分析JS - SDK 设计直播讲座
Java - sdk 设计
项目流程/架构
项目准备JS - SDK 实现
Java - SDK 实现
Nginx 搭建
数据采集以及清洗Flume的用法
日志收集的实现(业务系统日志数据实时写入HDFS)
ETL - 数据清洗
项目代码实现以及优化新增用户指标 - mapreduce实现
Outputformat 类实现
活跃用户指标 - mapreduce实现
项目优化
项目架构扩展以及组件整合Sqoop的用法
Hive和hbase 的整合
浏览深度指标的hive分析
项目架构扩展
redis理论(2晚)redis类型安装redis直播讲座
数据类型:String、list、hash、set、sortedset
redis高级持久化
主从复制
哨兵
Zookeeper理论(2晚)Zookeeper介绍架构模型直播讲座
可用模式
选主模式
Zookeeper使用api开发
使用场景介绍
zk案例:rmi多server的分布式协调
Scala语法(2晚)Scala语法介绍scala语言特点直播讲座
scala开发环境的安装
scala语法
scala语法实战语法使用
Spark理论(10晚)Spark介绍Spark与MR的对比直播讲座
Spark运行模式以及区别
RDD的五大特性
Spark代码开发流程transformation类算子
action类算子
统计每一个单词出现的次数 WordCount
持久化类算子的原理以及使用方式
Spark集群搭建Spark集群的架构,Master Wokrer的作用自学视频
集群搭建
client cluster两种提交任务的方式的区别以及应用场景
提交命令 各个选项的作用
Spark资源调度原理什么是资源调度直播讲座
资源调度的流程
资源调度的源码分析
Spark任务调度RDD的宽窄依赖
DAGScheduler切割job的原理
TaskScheduler的调度以及重试原理
什么是推测执行,推测执行的必要条件
Spark案例计算topN
分组取TopN
统计页面的PV UV 最热门的板块,以及最热门的板块下最活跃的top10用户...
Spark中两种最重要shuffle什么shuffle
shuffle的原理
sortShuffle hashShuffle的执行原理以及区别
shuffle调优
Spark高可用集群的搭建高可用集群的原理
搭建步骤
Spark WEBUI详解
SparkSQL介绍什么是SparkSQL SparkSQL的优势
SparkSQL中的DataFrame与RDD的区别
SparkSQL支持的数据源
SparkSQL实战Spark读取parquet格式的文件
SQL语句处理RDD数据
数据保存的方式
自定义UDF UDAF函数  
开窗函数的使用
SparkStreaming介绍SparkStreaming介绍
SparkStreaming的应用场景
SparkStreaming运行原理
SparkStreaming实战算子讲解
有状态的算子(updateStateByKey reduceByKeyAndWindow)
SparkStreaming与kafka整合步骤
Spark车流量分析项目(5晚)车流量项目的架构lambda架构直播讲座
模块介绍
技术方案选型
数据采集
车流量项目的需求分析以及代码实现需求分析
代码实现
车流量项目的需求分析以及代码实现需求分析
代码实现
车流量项目调优代码调优
资源调优
数据本地化调优
6种数据倾斜解决方案
车流量项目总结项目知识点总结
调优点总结
机器学习(6晚)机器学习介绍什么是机器学习直播讲座
机器学习与人类思考的对比
简单的线性回归
线性回归详解简单的线性回归  多元现行回归
什么梯度下降
保险保费预测案例
逻辑回归分类算法什么是分类  分类与回归的区别
逻辑回归分类原理
音乐分类案例
Kmeans聚类算法什么是聚类
Kmeans算法原理
微博营销案例
KNN分类算法KNN原理
手写实现KNN算法
约会案例
决策树 随机森林算法算法原理
手写实现算法 
机器学习项目(3晚)推荐系统介绍以及架构分析什么是推荐系统,以及推荐系统的前景直播讲座
什么是lambda架构
本项目架构详解
推荐系统的特征工程数据清洗
特征工程  关联特征与基本特征的构建
推荐系统代码实现以及部署什么是dubbo为服务
代码实现
项目部署
Elasticsearch理论(2晚)Elasticsearch搜索原理倒排索引与lucene框架原理直播讲座
单lucene搜索引擎的原理
Elasticsearch集群分布式搜索原理
Elasticsearch实战Elasticsearch集群搭建
可视化UI 服务讲解 与任务布置
CURL 命令创建es数据
Storm理论(3晚)Storm介绍以及代码实战Storm实时分析框架原理与比较直播讲座
本地集群运行Storm框架
IDE环境应用Storm及功能案例1
Storm伪分布式搭建以及任务部署IDE 本地集群运行与案例2
Storm 伪分布式集群搭建
Storm 任务部署
Storm架构详解以及DRCP原理Storm 架构解释
Storm 全分布式集群搭建及任务部署
drpc 同步实施分析与异步分析的异同及部署
虚拟化理论kvm虚拟化虚拟化原理自学视频
kvm虚拟化命令行操作
dockerdocker理论
docker实操

中石化大数据顾高级技术问张洋老师专场大数据、架构、区块链公开课

十年经验的老司机带你飞【学习交流群:189555046】

点击这个链接报名哦!【免费的】架构大数据区块链公开课

https://ke.qq.com/course/215398?flowToken=1002412



  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值