数据分析2——核心思维技巧

学习视频:B站【秦路】七周学会数据分析|良心教程(数据思维/统计学/excel/数据可视化/sql/python)
技巧

1.象限法

象限法案例
这里例举的是APP,区分类别。按照高频和低频作为Y轴,将邻域的综合或者垂直分为X轴。
象限法最简单的就是对数据进行人工的分类:
在这里插入图片描述
(这个图老师的横纵坐标写反了。。。)
上图就可以用来对用户进行分群划分。
下图是一种比较经典的用户划分方式,将用户分为了8个象限:

2fm

总结

象限法的核心:策略驱动,我们划分出来的一定可以直接应用于策略。优点是直观、清晰,对数据进行的是人工的划分。
在这里插入图片描述

2.多维法

示例图
多维法是把数据的多个属性、维度。比如上图,我们将类型分为电子产品、日用品、书籍。从图中我们可以分析出2010年1季度,浙江书籍的销量,这种方法可以很直观的得到各种属性之间的关系。

利用多维法我们可以统计出多种属性,如下图:
在这里插入图片描述
划分出上面这些一个个维度,就可以利用多维法统计出一个大的立方体。这种方法比较适宜于大数据量的数据,数据量越丰富,统计起来更有优势,对于丰富维度的判别。
多维法缺点:
在这里插入图片描述

辛普森悖论

我们看上图,可以看到女生的录取率比男生录取率要高很多,那这可以说明这个学院就"阴盛阳衰"吗?这种说法其实是错误的,这里我们把学院进一步拆分:
在这里插入图片描述
如上图,这里从商学院和法学院分开来看,可以看出男生的录取率其实都比女生高,但是总计的录取率女生就是男生的两倍。这个问题就是多维法常遇到的,我们在分析过程中挑了很多的维度,但这些维度容易造成误差。在本案例中,实际上就是被平均了。这种陷阱在统计学上被称为辛普森悖论

优化方法

如何避免这种问题呢?
在这里插入图片描述

  1. 钻取(Drill-down):这实际上就是对属性的进一步挖掘,每一个拆开来,有点类似于结构化思维。eg:把书籍细分为悬疑类,言情类,文学类等等,把这个书籍维度进一步细挖;刚刚的学院问题,我们把学院分为商学院、法学院,还可以进一步分为班级等,这都是钻取。可以想一下钻井的感觉,不停的深挖。
  2. 上卷(Roll-up)
  3. 切片(Slice)
  4. 切块(Dice)
  5. 旋转(Pivot)
    从上图很形象的展示了这几种模式,利用这5种方法(联想到深度学习中为了防止过拟合,对数据增强,钻取这些就类似数据取patch。)

总结

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值