摘要
随着 2015 年 9 月gwy发布了《关于印发促进大数据发展行动纲要的通知》,各类型数据呈 现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几 个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会,如何从数据中获取价值显得尤 为重要,也是大数据相关技术急需要解决的问题。大数据是需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。数据建模不仅仅是任意组 织数据结构和关系,还必须与最终用户的需求和问题联系起来,并提供指导,帮助确保正确的数据 正确使用正确的方法获得正确的结果。
2022 年 8 月 5 日 — 2022 年 8 月 9 日
我们的目标
1.掌握大数据建模分析与使用方法。
2.掌握大数据平台技术架构。
3.掌握国内外主流的大数据分析与 BI 商业智能分析解决方案。
4.掌握大数据分析在搜索引擎、广告服务推荐、 电商数据分析、金融客户分析方面的应用。 5.掌握主流的基于大数据 Hadoop 和Spark、R 的大数据分析平台架构和实际应用。
6.掌握基于 Hadoop 大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产 品加上 Hadoop 平台形成大数据分析平台的应用剖析。
7.掌握常见的机器学习算法。
大纲
一、大数据概述
二、大数据处理 架构 Hadoop
三、分布式文件 系统 HDFS
四、分布式数据 库 HBase
五、MapReduce
六、Spark
七 、IPython Notebook 运 行 Python Spark 程序
八 、 Python Spark 集成开发环境
九 、 Python Spark 决策树二分类与多分类
十 、 Python Spark 支持向量机
十一、Python Spark 贝叶斯模型
十二、Python Spark 逻辑回归
十三、Python Spark 回归分析
十 四 、 Spark ML Pipeline 机器学 习 流程分类
十五、Python Spark 创建推荐引擎
十六、项目实践