<走进数据分析>课程学习笔记

目录

第一章:数据分析DDPP范式

第二章:数据与描述性分析(单变量的分布)

1.专有名词:Tidy Data/DQR

2.数值型变量和分类型变量

3.分布可以得到信息

4.统计学指标

(1)基本概念:鲁棒性/无偏估计/自由度

(2)衡量分布的中心/变异度/频繁度

①分布的中心:mean均值和median中位数

②分布分散程度:方差/标准差

③极差和四分位距

④分布的频繁度----众数

第三章:进阶分析与洞察

1.[数值--类别]变量对的图形化呈现:表/箱图

2.[数值-数值] 变量对的图形化呈现:散点图

①散点图的变量维度:

②散点图的特征:

第四章:悖论\陷阱与价值

潜在变量(Lurking variable):

辛普森悖论:

伯克森悖论:

第五章:相关性与因果性

相关性不等于因果性

数据分析与价值实现的链条 


第一章:数据分析DDPP范式

第二章:数据与描述性分析(单变量的分布)

1.专有名词:Tidy Data/DQR
  • Tidy Data:N*M的数据表,行数对应个体和观察对象;列数对应变量,对个体而言的某种属性
  • 描述性统计DQR关键因素:单变量/变量对及变量间关系描述性统计
2.数值型变量和分类型变量

数值型和分类型变量的区别:能否进行数学计算

分类变量常用图:柱状图bar plot/饼图pie chart :

  • 种类太多,需要归类,多数优先原则
  • 当bar按着频率进行排列时,又称为帕累托图

数值型变量常用:直方图histogram

  • 分组:将所有可能出现的数值划分等间距的组别,组别个数bins需要适中
  • 组内:统计该组内样本数值出现的频次,按着面积法则绘制对应的底和高
  • 注意:bins组数划分/X轴和Y轴取值过大(log处理)保证原值呈现/异常值outliers
3.分布可以得到信息

(1)分布概念:

  • 变量的取值有哪些;
  • 变量出现的频率;
  • count(*)和percentage

(2)分布的描述与衡量: 偏度/峰度/峰数

  • 偏度:偏度>0为正偏态,向右偏;偏度<0为负偏态,向左偏

4.统计学指标
(1)基本概念:鲁棒性/无偏估计/自由度
  • 鲁棒性:异常和危险情况下系统生存的能力,在统计学和数科中,可将之认为是抵抗异常值的能力
  • 无偏估计与自由度
(2)衡量分布的中心/变异度/频繁度
①分布的中心:mean均值和median中位数
②分布分散程度:方差/标准差
  • 为什么取平方: 标准差衡量的是每个变量距离均值的距离(欧式距离),若直接加总会出现负值抵消情况
  • 为什么分母是n-1:样本估计的无偏估计/自由度
  • SD是欧式距离,若直接取绝对值属于曼哈顿距离,当平方和开根号变为无穷大,则为切比雪夫距离
③极差和四分位距
  • range(极差):最大值-最小值
  • 第一分位数:25%的数值(极小值与中位值的中位值);
  • 第二分位数:中位数
  • 第三分位数:75%的数值(极大值与中位值的中位值)
  • IQR四分位距=Q3-Q1:统计各变量的分散情形
  • 上边缘与上四分位数的距离为:0.5*IQR
④分布的频繁度----众数
  • 数值型: 为组内出现频率最高某个值
  • 分类型: 数值为拥有最高频数的某个类别

注:箱图和直方图综合来看变量的分布

第三章:进阶分析与洞察

描述性统计(单变量分布)--诊断分析(变量间的关系)

诊断分析:

  • 数值与数值变量
  • 数值与分类变量
  • 分类与分类变量
1.[数值--类别]变量对的图形化呈现:表/箱图
  • 两向度次数表(count)--联合分布(percentage)--边缘分布--条件分布(业务重点关注)
  • 箱图/小提琴图:不同组别的数值分布工具

比如:户型--家庭结构:成交个数(两相度)/占比(联合分布)/成交的家庭结构占比(边缘分布)/135户型的家庭结构分布(条件分布)

2.[数值-数值] 变量对的图形化呈现:散点图
①散点图的变量维度:
  • 一般3维,可以对一组变量,加入第三个类别变量呈现更多信息(颜色/大小/形状);

  • 4维及以上会带来认知压力,基本毫无价值
②散点图的特征:
  • 形态:簇状/线性相关
  • 方向:正相关/负相关
  • 强度:分散程度

第四章:悖论\陷阱与价值

潜在变量(Lurking variable):

对业务或研究中变量关系有重要影响,却没被列入研究范围的变量;(不为人知或数据无法获得)

辛普森悖论:
  • 数据集分组呈现的趋势与数据集聚合呈现的趋势相反的现象;
  • 当尝试探究两种变量是否具有相关性时,会分别对其进行分组研究(分组即为潜在变量);然而在分组比较中处于优势的一方,在总评中反而是失势的一方
伯克森悖论:
  • 两个本来无关的变量之间体现出貌似强烈的相关关系
  • 比如胆囊炎与糖尿病的负相关,存在潜在变量

第五章:相关性与因果性

相关性不等于因果性

数据分析与价值实现的链条 

数据--处理和加工--信息--产生了联系--知识--思考与分析(知识之间新联系)--洞见--串联--智慧--传播--影响力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值