2022 年 8 月 5 日 — 2022 年 8 月 9 日 北京(同时转线上直播)
(5 日报到,6 日-9 日上课)
- 掌握大数据建模分析与使用方法。
- 掌握大数据平台技术架构。
- 掌握国内外主流的大数据分析与 BI 商业智能分析解决方案。
- 掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。
- 掌握主流的基于大数据 Hadoop 和 Spark、R 的大数据分析平台架构和实际应用。
- 掌握基于 Hadoop 大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上 Hadoop 平台形成大数据分析平台的应用剖析。掌握常见的机器学习算法。
来自中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家,拥有丰富的科研 及工程技术经验,长期从事机器学习、数据挖掘、大数据分析等领域的教学与研究工作。
八、具体课程安排
时间安排 | 课程大纲 | 详细内容 | 实践训练 |
第一天 9:00-12:00 14:00-17:00 | 一、大数据概述 |
| |
二、大数据处理架构 Hadoop | 1.Hadoop 项目结构2.Hadoop 安装与使用3.Hadoop 集群的部署与使用 4.Hadoop 代表性组件 |
| |
三、分布式文件系统 HDFS |
|
| |
四、分布式数据库 HBase |
| ||
第二天 9:00-12:00 14:00-17:00 | 五、MapReduce |
| |
六、Spark |
|
| |
七 、 IPython Notebook 运 行Python Spark 程序 |
|
Python Spark 命令
| |
八、 Python Spark 集成开发环境 |
| Spark MLlib 应用程序示例 | |
第三天 9:00-12:00 14:00-17:00 | 九、 Python Spark 决策树二分类与多分类 |
|
|
4.决策树多分类 |
| ||
十、 Python Spark 支持向量机 |
|
| |
十一、Python Spark 贝叶斯模型 |
|
| |
十二、Python Spark 逻辑回归 |
|
| |
第四天 9:00-12:00 14:00-17:00 | 十三、Python Spark 回归分析 |
|
|
十 四 、 Spark ML Pipeline 机器学习流程分类 | 1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler 等2.使用 Spark ML Pipeline 机器学习流程分类程序设计 |
| |
十五、Python Spark 创建推荐引擎 |
|
| |
十六、项目实践 | 1.日志分析系统与日志挖掘项目实践 a、Hadoop,Spark,ELK 技术构建日志数据仓库 b、互联网微博日志分析系统项目1.推荐系统项目实践 a、电影数据分析与个性化推荐关联分析项目 |