【Udacity】4,1,2,为什么使用数据可视化

安斯库姆四重奏展示了数据可视化的价值,四组统计数据在表格中看似相似,但通过图表显示了截然不同的模式。尽管统计特性相同,如均值、方差和线性回归,但可视化揭示了隐藏的关系,特别是在第四组中异常的x值。这强调了数据可视化在发现潜在模式和趋势中的关键作用。
摘要由CSDN通过智能技术生成

安斯库姆四重奏

我们为何要使用数据可视化?当我们直接看到数据(而不是当做一组数据放到表格中)时,我们更容易看出数据之间的关系。下面这组数据叫做安斯库姆四重奏:

I (x) I (y) II (x) II (y) III (x) III (y) IV (x) IV (y)
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
这里有四组类似的数据集。一切看起来正常,只是一组数字。从 I 到 IV 的每个数据集都具有相同的统计特征:

属性 值
每组 x 的均值 9(精确值)
每组 x 的样本方差 11(精确值)
每组 y 的均值 7.5 (精确到小数点后两位)
每组 y 的样本方差 4.122 或 4.127(精确到小数点后三位)
每组 x 和 y 之间的关系 0.816 (精确到小数点后三位)
每组的线性递归直线 3.00 + 0.500*x(分别精确到小数点后两位和三位)
线性递归的拟合优度测量结果(例如 R^2)也相同。只看数据的话,根本发现不了什么奇怪的地方, 但是对于 IV 组,除了一个地方之外,所有其他的 x 都相同。我们看看可视化之后的效果吧:
这里写图片描述

安斯库姆四重奏可视化图表 (https://commons.wikimedia.org/w/index.php?curid=9838454)

将这些数据绘制成图表后,我们可以清晰地看到每组数据非常不同。不仅数据集不同,而且第 II、III 和 IV 组的线性趋势明显不对,虽然所有的统计信息似乎没问题。这就是可视化具有的作用,它们可以展示出仅通过查看数据本身无法看出的关系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值