第01周 走进数据分析
1-1 互联网数据分析通用课程-导学
课程导学
随着互联网的发展,任何岗位都离不开数据分析
- 互联网 => 数据 => 价值
- 用户 => 网上购物 => 评价、购买量、价格
- 产品 => 设计与优化 => 跟踪用户行为、监测数据
- 运营 => 成交量 => 数据指标、有效营销手段
数据分析师,必须掌握的技能
硬技能 => 硬性数据处理和分析工具的使用
=> 电子表格 Excel
=> 数据库操作语言 SQL
=> 可视化面板 Tableau
=> 大数据处理分析 Python
软技能 => 对事物的认知方式、经验积累
- A的价格比B的价格高
- A的波动大于B,波动大风险就大
- 行情下跌 vs 事件关系
课程优势
普适性
运营、产品、市场或者销售
数据分析的硬技能
互联网行业经验
=> 细分行业、企业、商业模式
运营策略、思维模型、业务指标
实战性
真实的数据、案例
第一阶段:大数据人才需求分析、销售情况分析
第二阶段:用户行为、用户画像、营销渠道分析、留存转化
从0到1
目标确定=>数据获取=>数据清洗=>数据探索=>洞察结论=>数据报告
期待你和我一起,用数据解析世界
1-2 从互联网数据分析说起
什么是互联网数据分析
互联网:
- 信息传输的一种载体
- 通过电子化的方式留存信息
- 与传统线下基于实物的传输方式相对应
纸币、硬币
数字货币
数据分析:
对数据的规律进行总结、提炼
决策
互联网 数据分析岗人才需求 => 线上 线下
招聘信息 => 统计职位数 => 同类比较
数据 => 生产材料
章节回顾
- 互联网 => 线上的传输方式
- 数据分析 => 利用数据规律进行决策
- 互联网数据分析 => 对基于线上产生的数据进行分析
课后作业
以下哪个是基于互联网的数据分析:
A. 统计某产品线下调研结果
B. 分析某课程线上引流效果
2-1 什么是数据
从认识数据开始
认识数据
- 数据分类
- 统计指标
- 分布形态
- 数据分析流程
- 常用数据分析工具
什么是数据
- 数据是对事物的描述和记录
数据的特性
根据计量层次,进一步对数据进行分类
黄瓜、番茄、森林、书本,无法计算比较,计量层次低
1,2,3,4,5,这些数据可以计算比较,那么计量层次就高
定类数据
颜色:红色、白色、黄色
性别:男性、女性
职位:数据产品经理、数据运营、市场营销运营
按照类别属性进行分类,各类别之间是平等并列关系
这种数据不带数量信息,并且不能在各类别间进行排序
主要数值运算,计算每一类别中的项目的频数和频率
定序数据
受教育程度:小学、初中、高中、大学、硕士、博士
季度:春、夏、秋、冬
等级:合格、良好、优秀
定序数据之间可以进行排序、比较优劣
通过将编码进行排序,可以表示之间的高低差异
定距数据
温度:20、50、100
成绩:50、65、70、100
年龄:8、25、40、60
具有一定单位的实际测量值
定距数据的精确性比定类数据和定序数据更高
可以计算出各变量之间的实际差距(加、减)
定比数据
利润:10万、20万、30万
薪酬:3000、6000、9000、12000
用户数:210、3500、49000
可以比较大小,进行加、减、乘、除运算
定距尺度中,0表示数值,定比尺度中,0表示"没有"
定比数据中是存在绝对零点的,而定距数据不存在
定性、定量数据
定性数据(定类数据、定序数据)
是一组表示事物性质、规定事物类别的文字表述型
定类数据(定距数据、定比数据)
指以数量形式存在着的属性,并因此可以对其进行
数据矩阵/二维数据表
- 数据属性、维度
- 观测值、记录
章节回顾
什么是数据
数据的类型
定类数据 => 定性数据
定序数据 => 定性数据
定距数据 => 定量数据
定比数据 => 定量数据
数据矩阵是怎么组成的
课后作业
对应的是什么数据类型
定性:姓名、性别、职业
定量:用户标识、年龄、薪酬
2-2 什么是统计指标
为什么要学习统计指标
- 技能
- 薪酬水平
- 工作年限
- 业务背景
- 汇总
- 处理
- 计算
什么是统计指标
- 体现总体数量特征的概念和数值
- 根据数据分析的目的不同,统计指标也会变化
房屋设计:建筑面积、竣工面积、技术装备率
提升用户转化率:网站浏览量、着陆页、跳失率
选择理财产品:往期业绩、风险系数、年化收益
总量指标
GDP(国内生产总值)
总人口 => 总和(SUM)
销售总额
- 特定条件下的总规模、总水平或工作总量
- 是一种最基本的统计指标
平均指标
用一个数字显示其一般水平
=> 集中趋势指标
相对指标
- 两个有联系的现象数值相比得到的比率
- 描述的是相对关系,而不是总体情况
比例、比率、倍数
- 比例 = 各数据/总比 %
- 1:2:3:...:10:11:12
- 比率 = 数据项:数据项
- 年末/年初 = 12
- 倍数 突出上升、增长幅度
环比、同比
近2个月的销售情况?
环比增长率:
(本期数-上期数)/上期数*100%
(12000-11000)/11000 = 9.09%
- 同比增长率:
- (本期数-同期数)/同期数*100%
- (3450-2300)/2300 = 50%
环比更注重短期的涨幅表现
同比更注重长期的
章节回顾
- 总量指标:描述总体估摸的
- 相对指标:部分与整体关系
- 平均指标(集中趋势):数据一般水平
课后作业
1、今年销售总额
2、每月占总销售的比例
3、平均每月销售额
2-3 统计指标:集中趋势
集中趋势指标的特点
哪个营销渠道引流效果最佳?
什么岗位的薪酬水平最高? => 平均值
哪个产品最受欢迎?
…… => 初步结论
什么是集中趋势指标
- 用于体现数据一般水平的指标
- 最快速了解样本数据的概况
- 最常用的集中趋势指标就是平均值
平均值
- = 所有数据相加/数据的个数
- 加和:151100
- 平均值:16789
- 去除异常值:10762
- 差异:6026
- 具有一定误导性,对异常数不敏感
中位数
- 按顺序排列后,居于中间位置的数
- 奇数:位于(n+1)/2位置的数
- 偶数:最中间的两位数相加/2
- 更具有代表性
众数
- 出现次数最多的数值
- 反应的是局部特征、密集度
- 众数可以有多个
章节回顾
- 平均值:黄线
- 中位数:绿线
- 众数:蓝线
课后作业
1、计算平均值、中位数、众数
2、哪一组薪酬水平更高
2-9 本章小结
数据的基本特征
什么是数据
- 数据类型
- 集中趋势 分布形态
- 离散趋势 异常值
数据分析有哪些内容
数据分析流程
数据分析技能
2-4 统计指标:离散趋势
什么是离散趋势指标
- A(蓝线):10.22 ~ 10.88
- B(橙线):10.22 ~ 11.43
- 股票B比股票A更离散
体现内部差异度的指标
- 极差
- 平均差
- 标准差
极差
- 相距最远的两个点之间的距离
- 极差 = 最大值 - 最小值 = 1.55
- 数据内部最大的差异情况
平均差
- 一组数据与平均值差异
- 数据项与平均值的差距越大
- 数据越分散,反之越集中
- 股东回购、政策利好、供需失衡
- 事件驱动型的数据,在样本量较小的时候,容易导致误差
- 对离散值更敏感
标准差
- 优化过的更能代表离散程度的指标
- 更直观的了解差异程度
- 最常用的离散指标