＜走进数据分析＞课程学习笔记

本文链接：https://blog.csdn.net/lalalal0/article/details/136175380

本文探讨了数据分析的基本步骤，包括DDPP范式、单变量分布的描述（如TidyData和DQR）、数值与分类变量的图形化表示、分布特性（如偏态和变异度）、以及悖论和相关性与因果性的区别。通过实例解析，强调了数据处理中的陷阱和价值挖掘过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

①分布的中心:mean均值和median中位数

1.[数值--类别］变量对的图形化呈现:表/箱图

2.[数值-数值] 变量对的图形化呈现:散点图

①散点图的变量维度:

②散点图的特征:

第四章:悖论\陷阱与价值

潜在变量(Lurking variable):

辛普森悖论:

伯克森悖论:

第五章:相关性与因果性

第一章:数据分析DDPP范式

第二章:数据与描述性分析(单变量的分布)

1.专有名词:Tidy Data/DQR

Tidy Data:N*M的数据表,行数对应个体和观察对象;列数对应变量,对个体而言的某种属性
描述性统计DQR关键因素：单变量/变量对及变量间关系描述性统计

2.数值型变量和分类型变量

数值型和分类型变量的区别:能否进行数学计算

分类变量常用图:柱状图bar plot/饼图pie chart :

种类太多，需要归类，多数优先原则
当bar按着频率进行排列时，又称为帕累托图

数值型变量常用:直方图histogram

分组：将所有可能出现的数值划分等间距的组别，组别个数bins需要适中
组内：统计该组内样本数值出现的频次，按着面积法则绘制对应的底和高
注意：bins组数划分/X轴和Y轴取值过大（log处理）保证原值呈现／异常值outliers

3.分布可以得到信息

(1)分布概念：

变量的取值有哪些;
变量出现的频率;
count(*)和percentage

(2)分布的描述与衡量：偏度/峰度/峰数

偏度：偏度>0为正偏态，向右偏；偏度<0为负偏态，向左偏

4.统计学指标

(1)基本概念:鲁棒性/无偏估计/自由度

鲁棒性:异常和危险情况下系统生存的能力,在统计学和数科中,可将之认为是抵抗异常值的能力
无偏估计与自由度

(2)衡量分布的中心/变异度/频繁度

①分布的中心:mean均值和median中位数

②分布分散程度:方差/标准差

为什么取平方: 标准差衡量的是每个变量距离均值的距离(欧式距离),若直接加总会出现负值抵消情况
为什么分母是n-1:样本估计的无偏估计/自由度
SD是欧式距离,若直接取绝对值属于曼哈顿距离,当平方和开根号变为无穷大,则为切比雪夫距离

③极差和四分位距

range(极差):最大值-最小值
第一分位数：25%的数值(极小值与中位值的中位值);
第二分位数:中位数
第三分位数:75%的数值(极大值与中位值的中位值)
IQR四分位距=Q3-Q1：统计各变量的分散情形
上边缘与上四分位数的距离为:0.5*IQR

④分布的频繁度----众数

数值型: 为组内出现频率最高的某个值
分类型: 数值为拥有最高频数的某个类别

注:箱图和直方图综合来看变量的分布

第三章:进阶分析与洞察

描述性统计(单变量分布)--诊断分析(变量间的关系)

诊断分析:

数值与数值变量
数值与分类变量
分类与分类变量

1.[数值--类别］变量对的图形化呈现:表/箱图

两向度次数表(count)--联合分布(percentage)--边缘分布--条件分布(业务重点关注)
箱图/小提琴图:不同组别的数值分布工具

比如:户型--家庭结构:成交个数(两相度)/占比(联合分布)/成交的家庭结构占比(边缘分布)/135户型的家庭结构分布(条件分布)

2.[数值-数值] 变量对的图形化呈现:散点图

①散点图的变量维度:

一般3维,可以对一组变量,加入第三个类别变量呈现更多信息(颜色/大小/形状);

4维及以上会带来认知压力,基本毫无价值

②散点图的特征:

形态:簇状/线性相关
方向:正相关/负相关
强度:分散程度

第四章:悖论\陷阱与价值

潜在变量(Lurking variable):

对业务或研究中变量关系有重要影响,却没被列入研究范围的变量;(不为人知或数据无法获得)

辛普森悖论:

数据集分组呈现的趋势与数据集聚合呈现的趋势相反的现象;
当尝试探究两种变量是否具有相关性时,会分别对其进行分组研究(分组即为潜在变量);然而在分组比较中处于优势的一方,在总评中反而是失势的一方

伯克森悖论:

两个本来无关的变量之间体现出貌似强烈的相关关系。
比如胆囊炎与糖尿病的负相关,存在潜在变量

第五章:相关性与因果性

数据分析与价值实现的链条

数据--处理和加工--信息--产生了联系--知识--思考与分析(知识之间新联系)--洞见--串联--智慧--传播--影响力

＜走进数据分析＞课程学习笔记

第一章:数据分析DDPP范式

第二章:数据与描述性分析(单变量的分布)

1.专有名词:Tidy Data/DQR

2.数值型变量和分类型变量

3.分布可以得到信息

4.统计学指标

(1)基本概念:鲁棒性/无偏估计/自由度

(2)衡量分布的中心/变异度/频繁度

①分布的中心:mean均值和median中位数

②分布分散程度:方差/标准差

③极差和四分位距

④分布的频繁度----众数

第三章:进阶分析与洞察

1.[数值--类别］变量对的图形化呈现:表/箱图

2.[数值-数值] 变量对的图形化呈现:散点图

①散点图的变量维度:

②散点图的特征:

第四章:悖论\陷阱与价值

潜在变量(Lurking variable):

辛普森悖论:

伯克森悖论:

第五章:相关性与因果性

相关性不等于因果性

数据分析与价值实现的链条