目录
第一章:数据分析DDPP范式
第二章:数据与描述性分析(单变量的分布)
1.专有名词:Tidy Data/DQR
- Tidy Data:N*M的数据表,行数对应个体和观察对象;列数对应变量,对个体而言的某种属性
- 描述性统计DQR关键因素:单变量/变量对及变量间关系描述性统计
2.数值型变量和分类型变量
数值型和分类型变量的区别:能否进行数学计算
分类变量常用图:柱状图bar plot/饼图pie chart :
- 种类太多,需要归类,多数优先原则
- 当bar按着频率进行排列时,又称为帕累托图
数值型变量常用:直方图histogram
- 分组:将所有可能出现的数值划分等间距的组别,组别个数bins需要适中
- 组内:统计该组内样本数值出现的频次,按着面积法则绘制对应的底和高
- 注意:bins组数划分/X轴和Y轴取值过大(log处理)保证原值呈现/异常值outliers
3.分布可以得到信息
(1)分布概念:
- 变量的取值有哪些;
- 变量出现的频率;
- count(*)和percentage
(2)分布的描述与衡量: 偏度/峰度/峰数
- 偏度:偏度>0为正偏态,向右偏;偏度<0为负偏态,向左偏
4.统计学指标
(1)基本概念:鲁棒性/无偏估计/自由度
- 鲁棒性:异常和危险情况下系统生存的能力,在统计学和数科中,可将之认为是抵抗异常值的能力
- 无偏估计与自由度
(2)衡量分布的中心/变异度/频繁度
①分布的中心:mean均值和median中位数
②分布分散程度:方差/标准差
- 为什么取平方: 标准差衡量的是每个变量距离均值的距离(欧式距离),若直接加总会出现负值抵消情况
- 为什么分母是n-1:样本估计的无偏估计/自由度
- SD是欧式距离,若直接取绝对值属于曼哈顿距离,当平方和开根号变为无穷大,则为切比雪夫距离
③极差和四分位距
- range(极差):最大值-最小值
- 第一分位数:25%的数值(极小值与中位值的中位值);
- 第二分位数:中位数
- 第三分位数:75%的数值(极大值与中位值的中位值)
- IQR四分位距=Q3-Q1:统计各变量的分散情形
- 上边缘与上四分位数的距离为:0.5*IQR
④分布的频繁度----众数
- 数值型: 为组内出现频率最高的某个值
- 分类型: 数值为拥有最高频数的某个类别
注:箱图和直方图综合来看变量的分布
第三章:进阶分析与洞察
描述性统计(单变量分布)--诊断分析(变量间的关系)
诊断分析:
- 数值与数值变量
- 数值与分类变量
- 分类与分类变量
1.[数值--类别]变量对的图形化呈现:表/箱图
- 两向度次数表(count)--联合分布(percentage)--边缘分布--条件分布(业务重点关注)
- 箱图/小提琴图:不同组别的数值分布工具
比如:户型--家庭结构:成交个数(两相度)/占比(联合分布)/成交的家庭结构占比(边缘分布)/135户型的家庭结构分布(条件分布)
2.[数值-数值] 变量对的图形化呈现:散点图
①散点图的变量维度:
一般3维,可以对一组变量,加入第三个类别变量呈现更多信息(颜色/大小/形状);
- 4维及以上会带来认知压力,基本毫无价值
②散点图的特征:
- 形态:簇状/线性相关
- 方向:正相关/负相关
- 强度:分散程度
第四章:悖论\陷阱与价值
潜在变量(Lurking variable):
对业务或研究中变量关系有重要影响,却没被列入研究范围的变量;(不为人知或数据无法获得)
辛普森悖论:
- 数据集分组呈现的趋势与数据集聚合呈现的趋势相反的现象;
- 当尝试探究两种变量是否具有相关性时,会分别对其进行分组研究(分组即为潜在变量);然而在分组比较中处于优势的一方,在总评中反而是失势的一方
伯克森悖论:
- 两个本来无关的变量之间体现出貌似强烈的相关关系。
- 比如胆囊炎与糖尿病的负相关,存在潜在变量
第五章:相关性与因果性
相关性不等于因果性
数据分析与价值实现的链条
数据--处理和加工--信息--产生了联系--知识--思考与分析(知识之间新联系)--洞见--串联--智慧--传播--影响力