Anscombe‘s Quartet 问题

      今天在进行可视化工作的时候遇上了一个名词, Anscombe's Quartet,不是很了解具体指的是什么就去WIKI百科里面查了一下,具体的链接在这里

       针对这个问题又查了一些资料汇总如下:

       1973年,统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们,在分析数据之前,描绘数据所对应的图像有多么的重要。这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。这四组数据如下所示:

                                                 
     把它们描绘在图表中,你会发现这四组数据是四种完全不同的情况。第一组数据是大多人看到上述统计数字的第一反应,是最“正常”的一组数据;第二组数据所反映的事实上是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。

      这四组数据绘制散点对比图如下图所示:

                                               
      这个问题就是要告诉我们了解原始数据的分布时多么重要的一件事,做数据分析绝不仅仅是基于统计的手段去计算和分析,可是化工具对于数据分析能够起到很大的辅助作用。

      说到可视化,也正是今天在做的事情,这里给大家安利一个有趣同时功能强大的库 yellowbrick,地址在这里。这个库提供了很多实用的功能,当然也包括了今天要了解学习的Anscombe's Quartet问题,实践起来非常地简单,具体如下:

#Anscombe's Quartet 问题
import yellowbrick as yb
import matplotlib.pyplot as plt
g = yb.anscombe()
plt.savefig('anscombe.png')

      anscombe.png如下图所示:

       学习了! 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值