《大数据建模、分析、挖掘技术》

最新推荐文章于 2024-07-12 17:53:13 发布

MaichPyTorch

最新推荐文章于 2024-07-12 17:53:13 发布

阅读量258

点赞数 1

分类专栏：计算机视觉与信息取证文章标签：大数据数据挖掘数据仓库

本文链接：https://blog.csdn.net/MaichPyTorch/article/details/126134290

版权

计算机视觉与信息取证专栏收录该内容

8 篇文章 0 订阅

订阅专栏

2022 年 8 月 5 日 — 2022 年 8 月 9 日 北京（同时转线上直播）

（5 日报到，6 日-9 日上课）

掌握大数据建模分析与使用方法。
掌握大数据平台技术架构。
掌握国内外主流的大数据分析与 BI 商业智能分析解决方案。
掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。
掌握主流的基于大数据 Hadoop 和 Spark、R 的大数据分析平台架构和实际应用。
掌握基于 Hadoop 大数据平台的数据挖掘和数据仓库分布式系统平台应用，以及商业和开源的数据分析产品加上 Hadoop 平台形成大数据分析平台的应用剖析。掌握常见的机器学习算法。

来自中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家，拥有丰富的科研及工程技术经验，长期从事机器学习、数据挖掘、大数据分析等领域的教学与研究工作。

八、具体课程安排

时间安排

课程大纲

详细内容

实践训练

第一天

9：00-12：00

14：00-17：00

一、大数据概述

大数据及特点分析

大数据关健技术

大数据计算模式

大数据应用实例

二、大数据处理架构 Hadoop

1.Hadoop 项目结构2.Hadoop 安装与使用3.Hadoop 集群的部署与使用

4.Hadoop 代表性组件

Hadoop Single Node Cluster

Hadoop Multi Node Cluster

三、分布式文件系统 HDFS

HDFS 体系结构
HDFS 存储
HDFS 数据读写过程

创建与查看HDFS 目录
从本地计算复制文件到HDFS
将HDFS 文件复制到本地计算机
复制与删除HDFS 文件
Hadoop HDFS Web 浏览 HDFS

四、分布式数据库 HBase

HBase 访问接口
HBase 数据类型
HBase 实现原理
HBase 运行机制
HBase 应用

第二天

9：00-12：00

14：00-17：00

五、MapReduce

MapReduce 体系结构
MapReduce 工作流程
资源管理调度框架YARN 4.MapReduce 应用

六、Spark

Spark 生态与运行架构
Spark SQL

Spark 部署与应用方式

Python Spark 安装
本地运行pyspark 程序
在Hadoop YARN 运行 pyspark 4.Spark Web UI

七、 IPython Notebook 运行Python Spark 程序

Anaconda

IPython Notebook 使用 Spark
使用IPython Notebook 在 Hadoop YARN 模式运行

在不同模式运行IPython Notebook 运行

Python Spark 命令

Python 程序开发

八、 Python Spark

集成开发环境

Python Spark 集成开发环境部署配置
Spark 数据分析库 MLlib 的开发部署

Spark MLlib 应用程序示例

第三天

9：00-12：00

14：00-17：00

九、 Python Spark

决策树二分类与多分类

决策树原理
大数据问题
决策树二分类

搜集数据
数据准备：导入并转换数据、提取特征字段、提取标签

		4.决策树多分类	Python Spark 建模，训练模型预测数据评估数据，给出评价指标并得到评估结果
	十、 Python Spark 支持向量机	支持向量机SVM 原理与算法 Python Spark SVM 程序设计	数据准备建立SVM 模型，训练模型评估参数并找出最优参数根据模型进行预测
	十一、Python Spark 贝叶斯模型	朴素贝叶斯模型原理 Python Spark 贝叶斯模型程序设计	建模贝叶斯模型，并进行对参数估计训练模型，得到最优参数根据模型进行预测
	十二、Python Spark 逻辑回归	逻辑回归原理 Python Spark 逻辑回归程序设计	Python Spark 逻辑回归建模根据模型进行分类
第四天 9：00-12：00 14：00-17：00	十三、Python Spark 回归分析	大数据分析数据集介绍 Python Spark 回归程序设计	数据准备训练回归模型建立评估指标训练回归模型，并找到最优参数根据模型进行预测
	十四、 Spark ML Pipeline 机器学习流程分类	1.机器学习流程组件：StringIndexer、OneHotEncoder、VectorAssembler 等2.使用 Spark ML Pipeline 机器学习流程分类程序设计	数据准备建立机器学习Pipeline 流程使用Pipeline 流程训练使用PipelineModel 预测评估模型准备率
	十五、Python Spark 创建推荐引擎	推荐算法推荐引擎大数据分析使用场景推荐引擎设计	搜索数据准备数据训练模型使用模型进行推荐
	十六、项目实践	1.日志分析系统与日志挖掘项目实践 a、Hadoop，Spark，ELK 技术构建日志数据仓库 b、互联网微博日志分析系统项目1.推荐系统项目实践 a、电影数据分析与个性化推荐关联分析项目

MaichPyTorch

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《大数据建模、分析、挖掘技术》

1.机器学习流程组件：StringIndexer、OneHotEncoder、VectorAssembler 等2.使用 Spark ML Pipeline 机器学习流程分类程序设计。来自中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家，拥有丰富的科研及工程技术经验，长期从事机器学习、数据挖掘、大数据分析等领域的教学与研究工作。1.Hadoop 项目结构2.Hadoop 安装与使用3.Hadoop 集群的部署与使用。b、互联网微博日志分析系统项目1.推荐系统项目实践。...
复制链接

扫一扫