今天曹大(caoz的梦呓)在公众号里分析里如上标题的文章。其实就是一个广告,但是广告也有广告的用处。文章里面列出里课程的学习提纲,是图片形式的。我这里花里一点时间,手敲成文字,而没有用OCR,原因是想看看这个课程到底值不值得学。因为数据分析师这个岗位还是比较有前景的,所以光看一下提纲,然后自己对照提纲去查找资料自学,也是可行的。如果有学习的需要,可以自行到曹大的公众号里按流程购买。
课程大纲如下:
数据分析师最佳实践(15%)
快速入门:认知数据分析
数据分析概念
- 数据分析是什么
- 数据分析概念及应用场景
- 数据分析分析什么
- 分析方法、应用领域
数据分析价值
- 通过数据返现商机
- 发现数据之间的关联,预测趋势
- 通过数据分析做精准营销
- 精准营销方案设计
- 通过数据分析做用户画像
- 用户画像、用户行为分析
- 通过数据分析生成数据分析报告、提供决策和业务优化支持
- 决策支持和业务优化
数据分析前景
- 数据分析的成功案例
- 数据加载、数据清洗、数据展示、数据分析师必备技能
- 数据分析的行业发展
- 数据分析行业人才需求、专门数据分析岗位需求、专门的数据分析机构
- 数据分析师的职业发展
- 传统行业和互联网行业业务流程、专业技能
材料准备:数据采集与处理
认识数据
- 认识数据表的字段和记录
- 字段、记录、表
- 使用Excel制作数据表、指定常用数据类型
- 数值型、字符型、一维表、二维表
获取数据
- 使用Excel导入网站数据及文本数据
- 网站数据、定时刷新、自动刷新、文本导入
处理数据
- 使用Excel进行数据清洗和筛选
- 数据导入、数据清理、数据筛选、条件格式、数据透视法
- 使用Excel进行数据抽样和计算
- 数据抽样、AVERAGE函数、SUM函数、MAX函数、MIN函数、IF函数
- 数据可视化
- 数据透视表、图表展示
工具准备:数据可视化工具
Tableau概述及常用操作
- 使用Tableau 进行数据加载及操作
- Tableau 导航
- Tableau 设计流程
- Tableau 文件类型
- Tableau 数据源
- Tableau 计算
- Tableau 工作表
- Tableau 图表
- 仪表盘
- 故事板
Power BI 概述及常用操作
- 使用Power BI加载数据源及塑造数据
- 数据加载、塑造数据、M函数、切片器
- 使用Power BI加载数据源及塑造数据
- 建模数据、可视化、图标
案例分析:电子商务数据分析
选择数据分析核心数据
- 如何选择核心数据
- 会员数据
- 营销数据
- 行业数据
- 交易与服务数据
掌握核心指标
- 如何掌握核心指标
- 转化指标
- 会员指标
- 流量指标
- 运营指标
- 成交转化率指标
掌握核心方法
- 掌握核心方法
- 常用核心方法
章节难点亮点:
快速入门数据分析技能,结合行业知识进行数据分析,形成数据分析报告。掌握数据分析实用工具和数据分析常用方法。深入理解业务流程,提升业务背景。快速、准确找到数据之间的关系,发现潜在价值。
培养目标:收集数据、清洗数据、分析数据、形成数据分析报告
全栈数据分析师养成记(35%)
基于python的自动化数据分析基础
python 语法入门
- 使用anaconda 搭建Python开发环境
- python
- ananconda
- mac
- windows
- 使用jupyter notebook 编写Python 程序
- 变量
- 数据类型
- 运算符
- 数据处理和输入
- 分支和循环
- 函数
python 数据结构
- 使用列表、字典和集合操作数据
- 列表
- 字典
- 集合
python 文件操作
- 使用open、write实现文件操作
- 文件
- open
- close
- write
python 面向对象
- 使用Python实现面向对象编程
- 类
- 对象
- 方法
- 封装
- 继承
- 多态
模块与异常处理
- 模块导入与异常介绍
- 内置模块
- 自定义模块
- 模块导入的注意点
- 异常捕获
- 自定义异常
Mysql 数据库
- 建库、建表及Sql语句增删改查操作
- 基础语法
- 图形界面工具
- 数据类型
- 数据库
- 数据表
- 数据查询
- 条件
- 排序
- 聚合
- 分组
- 连接
- 自关联
- 子查询
- 数据库设计原则
基于Web可视化技术的前端基础
http 网络请求
- 网络响应原理及基本使用
- HTTP
- HTTPS
- Requests
- Session
网页基本组成与结构
- HTML 页面组成及结构
- HTML
- HTML5
- CSS
- CSS3
- JavaScript
Request 库的使用
- 使用Requests 获取数据
- get
- post
- 响应内容
- 请求头
- 响应状态码
- 重定向与请求历史
- Cookie
常用数据存储形式
- 实现txt、JSON、CSV等格式文件存储
- json 格式
- 数据类型
- json 解析
- csv 文件
基于Numpy 实现科学计算
NumPy 创建多维数组对象
- 使用NumPy 生成ndarray
- 创建ndarray
- ndarray 的数据类型
- 数据结构多维数组对象ndarray
数组的算术运算
- 使用 NumPy 实现数组算术运算
- NumPy数组的运算
数组的索引与切片
- 使用NumPy对数组进行索引与切片
- 索引和切片
- 布尔索引
- 神奇索引
数组转置和换轴
- 使用NumPy对数组进行转置和换轴
- T、swapaxes、ufunc 通用函数、
- 利用数组进行数据处理
- 数学和统计方法概览
- 数组排序
- 唯一化
数组的文件输入和输出
- 使用数组进行面向数组编程
- 文件的保存与读取
- 线性袋鼠知识回顾
- 多维数组对象的内部机理
- 数组重塑
- 数组的合并和拆分
- 元素的重复操作
- 花式索引等价函数
- 广播机制
- ufunc 高级方法
- 数组高级排序方法
基于python科学计算包实现数据预处理和数据分析
Pandas 数据结构介绍
- 使用Pandas 创建Series 对象
- 创建Series
- 使用Pandas创建DataFrame对象
- 创建DataFrame
Pandas 索引对象
- 使用Pandas创建索引对象
- 行索引和列索引
- 重建索引
Pandas 基本操作
- 使用Pandas对数据进行索引、选择和过滤
- 删除数据项
- 索引选取过滤
- loc和iloc进行选取
- 整数索引
算术和数据对齐
- 使用Pandas对数据进行算术和数据对齐
- 算术运算和数据对齐
- DataFrame 和 Series的运算
- 函数应用和映射
排序和排名
- 使用Pandas对数据进行排序和排名
- 排序和排名
- 汇总和描述性统计
- 相关系数和协方差
- 分类数据
- 用分类进行数据
- 分类方法
- 创建虚拟变量
- GroupBy高级应用
- 分组的时间重采样
- 链式编程
- 管道方法
数据加载及存储
- 使用Pandas进行多种格式数据的读写
- 用Pandas读取文本格式的数据。read_rsv、read_table、read_excel、read_json、read_pickle、to_pickle、逐块读取文本数据、讲数据输出到文本数据、处理分隔符
与数据库进行数据加载
- 使用Pandas与数据库交互
- 数据库交互(MySQL、NoSQL)、数据库、数据表
处理缺失值及数据转换
- 使用Pandas 过滤缺失值
- 处理缺失数据、过滤缺失数据
- 使用Pandas补全缺失值
- 填充缺失数据
- 使用Pandas删除重复数据
- 去除重复数据
- 使用函数或映射进行数据转换
- 函数转换数据
- 重命名索引
- 排列和随机采样
- 使用正则表达式对数据进行操作
- 字符串操作、矢量化字符串函数
分层索引
- 使用Pandas进行分层索引的实现
- 层次化索引
- 使用Pandas进行重排序和层级排序
- 重排与分级排序、根据级别汇总统计
- 使用DataFrame的列进行索引
- 使用列作为索引
联合和合并数据集
- 使用Pandas进行联合与合并数据集
- 合并数据集
- 索引合并
- 轴向连接
- 合并重叠数据
数据重塑与透视
- 使用多层索引进行重塑
- 重塑和轴向旋转
- 长格式宽格式转换
基于绘图库(Matplotlib)实现数据可视化
matplotlib API 使用入门
- 使用matplotlib 绘图、设置颜色、标记和线类型
- Matplotlib API、Figure、Subplot、nrows、ncols、sharex、sharey
常用绘图展示
- 使用matplotlib对图标进行刻度、标签、图例设置
- 注释、子图、图例
常用可视化工具介绍
- 使用Pandas和seaborn 绘图
- 折线图、柱状图、直方图、密度图、散点图
基于聚合分组技术发现数据之间的关系及价值
GroupBy 机制
- 使用字典和Series分组
- GroupBy 机制、遍历各分组、函数分组
- 使用函数分组
- len、sum、min、max
- 根据索引层级分组
- asix、multiIndex
数据聚合
- 使用Pandas实现数据透视表与交叉表
- 数据聚合、透视表、交叉表
基于时间序列操作细化数据的时间展示
日期和时间数据类型及工具
- 使用datetime 实现字符串与时间类型的转换
- 时间戳、时间间隔、时区、字符串与datetime互相转换
时间序列基础
- 时间序列
- 索引、选择、子集
时区处理
- 使用Pandas生成日期范围、频率和移位
- 频率和日期偏置、时区本地化和转换
时间区间和区间算术
- 使用Pandas进行时区处理
- 时区区间和区间算术、区间频率转换、季度区间频率
案例分析
电影评分数据分析
美国农业部食品数据分析
金融数据分析
招聘网站岗位及薪资趋势分析报告
- 涉及娱乐、金融、互联网等行业真实数据,从业务流程角度进行数据分析,增强业务与技术实战能力。
- 数据清洗、时间序列、聚合与分组、柱状图、折线图、热力图
章节难点亮点:
简单易学的Python语言实战、灵活多样的数据网络爬虫。高效灵活的数据分析工具包:NumPy、pandas、matplotlib。涉及广泛的行业项目实战。
培养目标:懂业务、懂管理、懂分析、懂工具、懂设计。能够进行市场调研、数据报告、精准营销、客户画像。
大数据分析师晋升记(50%)
基于Hadoop生态系统大数据平台搭建及运算原理
Hadoop 集群搭建及安装
- 安装Hadoop及配置SSH
- 集群搭建
- 安装jdk
- SSH配置
- 格式化HDFS文件系统
- Hadoop配置管理
- Hadoop环境变量
HDFS设计原理及概念
- 使用HDFS实现数据操作
- Hadoop命令、数据流
MapReduce 工作原理
- MapReduce 工作机制
- map、reduce、数据流、配置开发环境、MapReduce工作流、MapReduce工作机制
分布式大数据仓库Hive 设计及数据检索实战
Hadoop之HiveQL 操作数据
- 基础语法、表连接、普通函数、窗口函数、sql优化
- 创建表、创建分区、重命名、增加列、删除列、导入导出数据、数据查询、内连接、左外连接、右外连接、全连接、自查询、视图、内置函数、自定义函数、窗口函数、SQL优化
数据分析方法
描述统计分析方法
- 频数分析、集中趋势、离散程度、数据分布
- 频数、平均数、中位数、众数、极差、方差、标准差、变异系数、峰值、偏度
回归分析方法
- 线性回归、逻辑回归、多项式回归、多元回归
- 因变量、自变量、回归线、回归系数
多元统计分析方法
- 聚类分析、判别分析、主成分分析、因子分析
- 聚类分析的思想
- 相似性度量
- 类和类的特征
- 距离判别
- 贝叶斯判别
- 逐步判别
- 主成分
- 总体成分
- 因子载荷
时间序列分析方法
- 自回归模型、季节模型
- 时间序列
- 时间序列分析
- GNAR模型
数据可视化
可视化工具使用(Excel)
- 使用Excel实现数据可视化
- 条形图&柱状图
- 饼图&环形图
- 单折图&双折线图
- 散点图&气泡图
- 箱线图
- 雷达图
- 组合图
可视化工具使用(Tableau)
- 使用Tableau实现数据可视化
- 条形图&柱状图
- 饼图&环形图
- 单折图&双折线图
- 散点图&气泡图
- 箱线图
- 雷达图
- 组合图
高级数据可视化
瀑布图、桑基图、漏斗图、矩形树图、旭日图
- 使用Excel、Tableau实现
- 绘制图表
Excel 动态图表
- 使用Excel实现
- 组合框控件、数据源
地图可视化
- 使用Tableau 实现
- 地图绘制、地图配色
echarts 实现
- 使用echarts实现常用图表
- 构建echarts、数据加载
高级数据分析师实战
经营分析方法论
- 交易分析
- 如何做好交易日报分析
- 流量分析
- 渠道分析
- 流量漏斗分析
- 用户分析
- 用户画像
- 行为分析
- 留存分析
行业分析方法论
- 竞争对手分析
- 分析方法、分析内容
- 行业动态
- 行业分布、行业趋势
业务分析方法论
- 产品分析
- 功能迭代分析、转化率分析
- 运营分析
- 活动运营分析、用户运营分析
- 销售分析
- 业绩达成分析、人效分析
章节难点亮点:
熟练掌握大数据集群搭建及环境配置,熟练掌握数据仓库搭建,并通过ETL 对数据进行转换操作。熟练掌握概率论和统计学知识进行建模。熟练使用hadoop、MapReduce、HDFS、hive 等技术。熟练搭建Hadoop + Hive 大数据分析架构,熟练掌握hadoop + hive + tableau 平台功能与应用场景。
培养目标:大数据分析师、了解业务方向和战略,提供决策和业务优化、营销战略。