第一阶段
Linux
day.1
- Linux系统概念
- Linux系统安装
- 安装CentOS系统
- CentOS系统初始化
- 硬盘、常见命令
- 常见命令的炒作演示
- 运行级别
day.2
- 用户的管理
- 权限
- 磁盘与文件系统
- 网络
day.3
- passwd
- 虚拟机的连接模式
- 远程管理
- 网络配置
- 免密登录
- 进程
- 系统资源监控
day.4
- 任务管理
- vim命令
- 压缩、打包
- rpm
- yum
day.5
- yum、防火墙和shel基础
- shell基础
- shell命令
- shell命令-sed
- shell命令-sort
- shell脚本
day.6
- shell脚本参数
- shell脚本判断语句
- shel脚本循环语句
- Linux知识点总结
BIGDATABASE
day.1
- BIO/NIO(buffer)
- NIO(channel)
- NIO(selector)
- Concurrent概述
- Concurrent阻塞式排队
- CAS无锁算法、红黑树
day.2
- 红黑树
- 并发导航映射、ExcutorService执行器服务
- 线程池
- Callable线程机制
- 分叉合并池
- 锁
day.3
- 原子型操作、zookeeper概述
- zookeeper单机安装、操作
- zookeeper基础概述
- zookeeperAPI操作
- zookeeper集群安装配置
- zookeeper选举
day.4
- ZAB协议、原子广播
- ZAB协议-奔溃恢复、观察者
- 观察者的配置、配置信息
- VARO
- 数据序列化、反序列化、RPC
- 大数据概念
第二阶段
HADOOP
day.1
- Hadoop概述
- Hadoop应用
- Hadoop伪分布安装
- HDFS概述、block
- HDFS-NameNode
- HDFS-副本放置策略
day.2
- HDFS其他细节
- dfs目录
- HDFS流程
- HDFS的API操作
- MapReduce简介
- MapReduce的API操作
day.3
- MapReduce序列化机制
- MapReduce分区
day.4
- MapReduce数据本地化
- MapReduce的执行流程
- Shuffle
- Shuffle调优
- 小文件处理
day.5
- hadoop集群安装配置
- Hadoop版本的对比讲解
- 自定义输入格式API
- 数据倾斜
- Yarn概述
第三阶段
FLUME
day.1
- flume安装
- flume的source练习
- flume自定义source
- flume的channel、sink
- flume的sink练习
HIVE
day.1
- flume的扇出流动、Selector、Interceptor
- flume的interceptor、processhive概述
- 数据库和数据仓库的区别、hive的安装
- hive基础指令
- Linux下的MySQL安装、配置
- hive的外部表和分区表
day.2
- hie分桶表
- hive数据类型、连接查询、内置函数
- hive自定义函数UDF
- hive的JDBC及优化
- hive数据倾斜及其他hive优化
- Sqoop概述、安装及指令
- hive实现Zebra
HBASE&PHOENIX
day.1
- HBASE概述
- HBASE的单机安装
- HBASE的基本概念及指令
- HBASE的API
- HBASE的api及数据库、数据仓库区别
- HBASE物理存储原理
day.2
- HBASE基本原理
- HBASE架构
- HBASE架构原理详情
- HBASE写流程
- HBASE读流程
- HBASE表设计及优化
- Phoenix介绍
第四阶段
KAFKA
day.1
- kafka简介
- kafka安装、概念介绍
- kafka概念介绍、架构
- kafka的使用
- kafka消息系统语句、串讲
SCALA
day.1
- Scala简介
- Scala基本语法
- Scala函数
day.2
- Scala集合-Array
- Scala集合-List、Set、Map
- Scala-Tuple(元祖)
- Scala高阶函数练习、Scala类
SPARK
day.1
- Spark介绍
- Spark单机模式安装、RDD介绍
- RDD操作
- Spark的DAG概念
- Spark框架核心概念、Spark代码端
day.2
- Spark练习
- Spark集群安装
- Spark集群架构、调度模块
- Spark Shuffle详解
- Spark缓存级别
day.3
- Spark调优
- GC回收机制及算法、收集器
- GC配置、Spark Checkpoin机制
- 数据倾斜问题及解决办法
- Spark共享变量、组件源码解读
day.4
- 机器学习-SparkMLib介绍
- Spark Mllib的基本数据类型
- 欧式距离、最小二乘法
- 预测商品需求量
day.5
- 梯度下降法
- Sigmoid函数
- 逻辑回归案例
- 协同过滤
- 商品推售
- 电影推售
day.6
- ALS算法
- 推荐系统的冷启动问题
- 贝叶斯定理
- Spark Sql概述、基本语法
- Spark Sql的API
- SparkStream介绍
第五阶段
WEBANALYPROGECT
day.1
- 实现历史批次累加-spark
- SparkStreaming和kafka整合
- 网站流量指标介绍
- 网站流量分析-搭建日志服务器
- 日志服务器的搭建以及flume整合
- 将flume数据存到HDFS、整合hive
day.2
- 网站流量指标处理-hive
- hive的占位符与文件的作用
- Sqoop将HDFS结果问价导出到MySql
- 实时系统搭建
- spqrk与HBASE整合
- 大数据知识点串讲
day.3
- 将指标数据插入HBASE表
- 查询HBASE表中数据计算指标值
- 大数据串讲及生产环境
STORM
day.1
- Storm概述
- Storm入门案例
- Storm并发控制&数据流分组方式
- Storm可靠性保障
- Storm集群安装配置
第六阶段
PYTHON
day.1
- 可视化概述、Echarts入门
- 个性化图标样式
- 动态加载数据
- 网站流量可视化
- Python概述、安装
day.2
- Python基本语法
- Python重要API-集合类
- Python语法-函数、模块、、包
- Python重要API-IO、异常机制
- Python语法-面向对象
- 爬虫概述
day.3
- Python爬虫框架
- Python爬虫框架使用
- Python电影
- Python电影、TTS大数据项目业务景
- TTS大数据项目需求分析
- TTS大数据项目架构设计、数据格式
day.4
- Freemarker-数据模板
- 生产测试数据
- hive中存储json格式数据
- 在hive种进行数据处理
- 将数据导出到关系数据库中
- 数据仓库维度建模
day.5
- SpringData概述
- SpringData的JPA使用
- SpringDataHadoop-Hive
- 开发SpringData调度程序
MACHINELEARNING
day.1
- 机器学习概述及应用
- R语言
- 统计学基础
- 随机变量及其分布
day.2
- R画圆基础
- 协议差和相关系数
- 求职者案例说明
- 矩阵估计
day.3
- 最小二乘法
- 一元线性回归
- 多元线性回归
- 逐步回归+多重共线性
- 岭回归原理
day.4
- 岭回归原理
- LASSO回归
- LAR算法
- 逻辑回归
- 数据处理技术
- 主成分分析
day-5
- 距离度量和相似度量
- 系统聚类
- K-Means聚类
- RMF客户价值识别
- 线性判断别
- KNN判断
- 贝叶斯定理
- 朴素贝叶斯分类器
- 贝叶斯网格
day.6
- 决策树+ID3算法树
- cart算法
- 决策树案例
- bagging算法
- 特征空间与核函数
- SVM算法