大数据学习路线(2018年最新整理)

星期

课程内容

 

内容安排

“领会平台”实验文档

 

第一阶段(java基础+MySql数据库+爬虫+java web可视化)

1

Java环境搭建+数据类型

Java数据类型

 

2

运算符+流程控制(if-else、switch)

Java运算符1

Java运算符2

 

3

流程控制(循环)

Java流程控制

 

4

Java数组(定义、遍历、二维数组)

Java基础训练-数组

图书管理系统

 

5

面向对象:类和对象、方法定义、重载、方法传参

封装:Pricate

访问修饰符:static、this、final

Java封装Private

 

 

1

继承和多态

抽象类和接口

继承和多态

Java抽象类和接口

 

2

Java常用类+异常处理

Java常用类实现双色球功能

Java异常处理

 

3

集合:

List:ArrayList、LinkedList

Set:HashSet、TreeSet

Map:HashMap、TreeMap

 

集合-list

集合-map

 

4

IO流处理:

文件处理:File类(递归算法)

字节流:InputStream、OutputStream

字符流:BufferedReader、BufferedWriter

高级打印流:PrintWriter

序列化和反序列化:

IO流--File类

IO流--字节流

IO流--字符流

 

5

垃圾回收机制

Java多线程:购票

总结回顾Java内容体系

Java--线程的创建和启动

 

 

1

MySql数据库安装

创建数据库、表等命令

删除表、数据增删改查、

MySql常用操作--DDL

MySql常用操作--DML

 

2

JDBC连接数据库

JavaWeb-JDBC连接数据库

 

3

Html+css选择器

Html制作网页

CSS网页样式--选择器

CSS网页样式--DIV盒子模型

CSS网页样式--常用样式

 

4

Js:语法+事件

javaScript基础语法

javaScript HTML DOM事件

 

5

爬虫:Jsoup

Java网络连接  URLConnection

XPath数据解析

Java爬虫--Jsoup内容解析

Java爬虫--Xpath解析
Java爬虫--网络请求

 

 

1

WebMagic框架爬虫:

智联+豆瓣电影

WebMagic之网页采集

WebMagic之爬取各网站首页并存储到HBase

 

2

JavaWeb:tomcat配置、环境介绍

Jsp+servlet

 

 

3

Echarts可视化

  • WebMagic之采集日剧电影信息存储MySql数据库

Web+Echarts日剧电影信息可视化--柱状图

 

4

综合练习:爬取数据并可视化
智联、豆瓣、当当、天气网

  • Web+Echarts日剧电影信息可视化--饼状图

 

5

综合练习:爬取数据并可视化
智联、豆瓣、当当、天气网

四、Web+Echarts日剧电影信息可视化--折线图

 

第二阶段:Hadoop大数据生态系统

1

大数据概述:由来、发展、特点

Hadoop组成、原理、特性

Hadoop Shell操作

Yarn

大数据概述:由来、发展、特点

Hadoop生态系统介绍

Hadoop三种安装模式介绍

Hadoop伪分布模式安装

Hadoop开发插件安装

 

 

2

HDFS原理

Hadoop Shell操作

HDFS Java API

HDFS JAVA API

Hadoop Shell基本操作

 

3

MapReduce原理(map、reduce、shuffle)

MapReduce程序代码结构

Mapreduce实例-wordcount

Mapreduce实例——去重

Mapreduce实例—求平均值

 

 

4

MapReduce常见案例原理

资源调度工具Yarn

Mapreduce实例——排序

Mapreduce实例——二次排序

Mapreduce实例——倒排索引

Mapreduce实例——Map端join

Mapreduce实例——Reduce端join

Mapreduce实例——单表join

Mapreduce实例——ChainMapReduce

开发YARN客户端应用

 

5

MapReduce实战算法实现

MapReduce 最优路径算法

MapReduce 社交好友推荐算法

MapReduce实战PageRank算法

MapReduce 互联网精准广告推送算法

 

 

1

数据仓库Hive

原理、作用、环境搭建、基本操作

Hive安装部署

Hive基本操作

 

2

数据仓库Hive

查询、分组排序

Hive查询

Hive分组排序

 

3

数据仓库Hive

JDBC连接Hive、Hive自定义函数

Hive JDBC连接

Hive UDF

 

4

数据迁移工具Sqoop安装

数据导入导出

Sqoop安装

Sqoop数据导入导出(Mysql,HDFS,Hive,HBase)

 

5

Sqoop增量数据导入

综合案例

Sqoop增量数据导入

综合案例—基本流程图

 

 

1

Zookeeper开发

Zookeeper安装

 

2

分布式数据库Hbase概述

HBase基本操作及表操作

HBase安装

HBase Shell基本操作

 

3

HBase数据库操作

HBase JAVA API

 

4

HBase过滤器

自定义过滤器

HBase的过滤器

 

5

分布式数据库Hbase

Sqoop导入数据到HBase

 

 

1

Kafka基本介绍

Kafka安装及测试

 

2

Kafka和Java API

Kafka Java API

Kafka分布式消息队列

 

3

Flume分布式日志框架

Flume配置文件

Flume安装部署

Flume配置Source、Channel、Sink

 

4

Flume分布式日志框架

自定义来源

传输数据到kafka

Flume自定义来源

Flume多source多sink组合搭建框架

Flume传输数据到kafka

 

5

Flume分布式日志框架

Flume Interceptors相关配置

Flume AVRO Client开发

Flume Sink Processors相关配置

Flume selector相关配置

综合案例-大数据平台

 

 

1

 

 

 

 

项目实战一

电商评论数据分析与展示

  • 采集电商网站交易及评论数据
  • 电商评论数据清洗

三、利用HiveSql语句离线分析评论数据

四、利用Sqoop导出Hive数据到MySQL库

五、开发JavaWeb+ECharts完成数据图表展示过程

 

 

2

 

3

项目实战二

北京市政信件项目开发

电商实战一:北京市政百姓信件内容分析

电商实战二:编写MapReduce程序清洗信件内容数据

电商实战三:利用HiveSql语句离线分析信件内容数据

电商实战四:利用Sqoop导出Hive数据到MySQL库

电商实战五:开发JavaWeb+ECharts完成数据图表展示过程

电商实战六:利用IKAnalyzer分词&词频统计算法(TF-IDF)分析信件内容关键词

 

 

4

 

5

 

第三阶段:Python编程+数据分析库+机器学习

1

Python环境搭建

数据类型:数字、字符串

变量

注释、运算符

Python安装

Python解释器介绍

Python基本数据类型:数字、字符串

Python输入输出

Python运算符与表达式

 

2

流程控制:

分支结构

循环结构

Python分支结构

Python循环结构

 

3

序列:

列表、元组、字符串

 

Python基本数据类型:集合、字典

Python数据结构:字典语法及应用

Python

Python字符串数据结构:集合语法及应用

 

4

列表切片和推导式

迭代器和生成器

Python数据结构:列表切片操作

Python数据结构:列表推导式

Python迭代器与生成器

 

5

字典、集合

Python基本数据类型:集合、字典

Python数据结构:字典语法及应用

Python数据结构:集合语法及应用

 

 

1

内置函数

函数(自定义、lambda)

Python内置函数

Python函数设计与使用

 

2

内建模块:

Math、sys、random等

Python模块的使用

Python标准库

Python日期和时间

 

3

面向对象编程

Python面向对象:入门

Python面向对象:类的成员

Python面向对象:三大特性

 

4

Python文件操作

异常处理

Python文件操作

Python异常处理

 

5

数据分析模块Numpy

numpy——基本操作(一)

numpy——基本操作(二)

numpy——linalg线性代数

numpy——random类

 

 

1

数据分析模块Pandas

pandas——DataFrame基本操作(一)

pandas——DataFrame基本操作(二)

Pandas——Series操作

Pandas——字符串处理

Pandas——groupby操作

Pandas——基本函数

Pandas——可视化

 

 

2

绘图模块Matplotlib  seaborn  pyecharts

matplotlib——条形图matplotlib——饼状图

matplotlib——直方图

matplotlib——散点图

matplotlib——绘制多个子图

matplotlib——3D图

matplotlib——文本说明(一)

matplotlib——文本说明(二)

 

3

机器学习sk-learn:
线性回归

多元线性回归

逻辑回归

机器学习--线性回归

机器学习--多元线性回归

机器学习--逻辑回归

 

4

机器学习sk-learn:

朴素贝叶斯

支持向量机

KNN算法

机器学习--朴素贝叶斯

机器学习--支持向量机(SVM)

机器学习--KNN算法

 

5

机器学习sk-learn:

  1. Means

PCA数据降维

随机森林

机器学习--KMeans算法

机器学习--Random Forest算法

机器学习--PCA数据降维

 

 

1

Spark介绍

Spark RDD介绍

Spark Local模式安装

Spark Standalone伪分布模式安装

Spark Shell操作

 

2

Spark SQL

SparkSQL,创建表,查询数据

SparkSQL,加载文件,处理文件,存储文件

 

3

Spark Streaming

Spark Streaming Wordcount

综合案例—Kafka传输数据给Spark Streaming处理

 

4

PySpark开发

pyspark安装

在IPython Notebook中使用Spark

详解PySpark SQL、DataFrame、RDD

 

5

PySpark MLlib

PySpark Mllib 逻辑回归

PySpark Mllib 随机森林

PySpark MLlib决策树二元分类

PySpark MLlib决策树回归分析--Bike Sharing

 

第十四周

1

 

 

 

项目实战三

中国房价信息分析项目

 

 

一、爬取全国近10年各省市区房价数据

二、PySpark分析房产数据并可视化展示

三、使用房价数据制作中国地图的热力图

四、舆情数据采集-微博评论数据

五、随机森林回归模型预测房价

2

3

 

项目实战四

股票数据分析项目

一、使用Python爬取股票数据

二、数据清洗并上传至HDFS

三、使用PyHive对股票数据进行分析

四、使用Django Echarts对分析数据进行可视化

五、Python数据分析--量化交易

4

5

 

第十五周

1

项目整 理、辅导、答辩准备

2

3

4

5

 

同步视频课程请从这里观看:http://www.ipieuvre.com/brochure

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值