各企事业单位:
随着 2015 年 9 月gwy发布了《关于印发促进大数据发展行动纲要的通知》,各类型数据呈 现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几 个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会,如何从数据中获取价值显得尤 为重要,也是大数据相关技术急需要解决的问题。大数据是需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。数据建模不仅仅是任意组 织数据结构和关系,还必须与最终用户的需求和问题联系起来,并提供指导,帮助确保正确的数据 正确使用正确的方法获得正确的结果。
一、时间安排:
2022 年 8 月 5 日 — 2022 年 8 月 9 日
(5 日报到,6 日-9 日上课)
二、培训目标
1.掌握大数据建模分析与使用方法。
2.掌握大数据平台技术架构。
3.掌握国内外主流的大数据分析与 BI 商业智能分析解决方案。
4.掌握大数据分析在搜索引擎、广告服务推荐、 电商数据分析、金融客户分析方面的应用。
5.掌握主流的基于大数据 Hadoop 和Spark、R 的大数据分析平台架构和实际应用。
6.掌握基于 Hadoop 大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产 品加上 Hadoop 平台形成大数据分析平台的应用剖析。
7.掌握常见的机器学习算法。
三、培训专家
来自中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家,拥有丰富的科研 及工程技术经验,长期从事机器学习、数据挖掘、大数据分析等领域的教学与研究工作。
四、参会对象:
各省市、自治区从事大数据分析、数据挖掘、数据处理、数据建模等领域相关的企事业单位技术骨干、科研 院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员,以及大数据研究广大爱好者。
六、颁发证书:
参加相关培训并通过考核的学员, 由中国管理科学研究院现代教育研究所颁发《大数据开发与应用工程师》 (高级) 岗位认证证书,可通过官方网站查询,该证书可作为有关单位专业技术人员能力评价、考核和任职的重 要依据。
八、具体课程安排
时间安排
课程大纲
详细内容
实践训练
第一天
9 :00-12:00 14:00-17:00
一、大数据概述
1.大数据及特点分析
2.大数据关健技术
3.大数据计算模式
4.大数据应用实例
二、大数据处理 架构 Hadoop
1.Hadoop 项目结构
2.Hadoop 安装与使用
3.Hadoop 集群的部署与使用
4.Hadoop 代表性组件
1.Hadoop Single Node Cluster
2. Hadoop Multi Node Cluster
三、分布式文件 系统 HDFS
1.HDFS 体系结构
2.HDFS 存储
3.HDFS 数据读写过程
1.创建与查看 HDFS 目录
2.从本地计算复制文件到 HDFS
3.将 HDFS 文件复制到本地计算机
4.复制与删除 HDFS 文件
5.Hadoop HDFS Web 浏览 HDFS
四、分布式数据 库 HBase
1.HBase 访问接口
2.HBase 数据类型
3.HBase 实现原理
4.HBase 运行机制
5.HBase 应用
第二天
9 :00-12:00 14:00-17:00
五、MapReduce
1.MapReduce 体系结构
2.MapReduce 工作流程
3.资源管理调度框架 YARN
4.MapReduce 应用
六、Spark
1.Spark 生态与运行架构
2.Spark SQL
3.Spark 部署与应用方式
1.Python Spark 安装
2.本地运行 pyspark 程序
3.在 Hadoop YARN 运行 pyspark
4.Spark Web UI
七 、IPython Notebook 运 行 Python Spark 程序
1.Anaconda
2.IPython Notebook 使用 Spark
3.使用 IPython Notebook 在 Hadoop
YARN 模式运行
1.在不同模式运行 IPython Notebook 运行 Python Spark 命令
2.Python 程序开发
八 、 Python Spark 集成开发环境
1.Python Spark 集成开发环境部署配置
2.Spark 数据分析库 MLlib 的开发部署
Spark MLlib 应用程序示例
第三天
9 :00-12:00
14:00-17:00
九 、 Python Spark 决策树二分类与多
分类
1.决策树原理
2.大数据问题
3.决策树二分类
1.搜集数据
2.数据准备:导入并转换数据、提取特征
字段、提取标签
4.决策树多分类
3. Python Spark 建模,训练模型
4.预测数据
5.评估数据,给出评价指标并得到评估结果
十 、 Python Spark 支持向量机
1.支持向量机 SVM 原理与算法
2.Python Spark SVM 程序设计
1.数据准备
2.建立 SVM 模型,训练模型
3.评估参数并找出最优参数
4.根据模型进行预测
十一、Python Spark 贝叶斯模型
1.朴素贝叶斯模型原理
2.Python Spark 贝叶斯模型程序设计
1.建模贝叶斯模型,并进行对参数估计 2.训练模型,得到最优参数
3.根据模型进行预测
十二、Python Spark 逻辑回归
1.逻辑回归原理
2.Python Spark 逻辑回归程序设计
1.Python Spark 逻辑回归建模
2.根据模型进行分类
第四天
9 :00-12:00
14:00-17:00
十三、Python Spark 回归分析
1.大数据分析
2.数据集介绍
3.Python Spark 回归程序设计
1.数据准备
2.训练回归模型
3.建立评估指标
4.训练回归模型,并找到最优参数
5.根据模型进行预测
十 四 、 Spark ML Pipeline 机器学 习 流程分类
1.机器学习流程组件:StringIndexer 、 OneHotEncoder、VectorAssembler 等
2.使用 Spark ML Pipeline 机器学习流 程分类程序设计
1.数据准备
2.建立机器学习 Pipeline 流程
3.使用 Pipeline 流程训练
4.使用 PipelineModel 预测
5.评估模型准备率
十五、Python Spark 创建推荐引擎
1.推荐算法
2.推荐引擎大数据分析使用场景
3.推荐引擎设计
1.搜索数据
2.准备数据
3.训练模型
4.使用模型进行推荐
十六、项目实践
1. 日志分析系统与日志挖掘项目实践
a 、Hadoop ,Spark ,ELK 技术构建日志数据仓库
b 、互联网微博日志分析系统项目
1.推荐系统项目实践
a 、 电影数据分析与个性化推荐关联分析项目