python处理大量数据_数据量太大?散点图装不下怎么办?用Python解决数据密度过大难题...

本文介绍了如何使用Python处理大量数据时遇到的散点图数据密度过大问题,提出了2D密度图作为解决方案。通过2D密度图,可以更清晰地观察两个定量变量的分布,避免数据点过度绘制。文中详细展示了2D密度图的绘制过程和不同类型的2D密度图,包括散点图、六边形蜂巢图、2D直方图、高斯核密度图以及带阴影和轮廓线的2D密度图。
摘要由CSDN通过智能技术生成

当我们需要观察比较2个变量间的关系时,散点图是我们首选图表。

可当数据量非常大,数据点又比较集中在某个区间中,图表没法看,密密麻麻的怎么看?

b09928f714754f35af9b4e14e73ed3ad.jpeg-wh_651x-s_2261066422.jpeg

怎么办?这时候就得看密度图了

什么是密度图?

fd435afa70c21df07fb665185041845a.jpeg

所谓的密度图 (Density Plot) 就是数据的分布稠密情况,它常用于显示数据在连续时间段内的分布状况。严格来说,它是由直方图演变而来,类似于把直方图进行了填充。

一般是使用平滑曲线来绘制数值水平来观察分布,峰值数值位置是该时间段内最高度集中的地方。

它比直方图适用性更强,不受分组数量(直方图的条形数量不宜过多)的影响,能更好地界定分布形状 。

本篇文章不谈论直方图,之后老海会专门总结关于直方图的使用。

什么是2D密度图?

说完了密度图和直方图,它们都是一维数据变量。

这下我们来看看2D密度图,它显示了数据集中两个定量变量范围内值的分布,有助于避免在散点图中过度绘制。

如果点太多,则2D密度图会计算2D空间特定区域内的观察次数。

该特定区域可以是正方形或六边形(六边形),还可以估算2D内核密度估算值,并用轮廓表示它。

本篇文章主要描述一下2D密度图的使用。

252acfba71e1ba1467af05943dd91faa.jpeg

2D密度图的基本数据样式

a490c9fa239227c40f32efbf3c29f38c.jpeg

2D密度图的使用建议

密度图是一种直方图的代替方案,常用来观察连续变量的分布情况

2D密度图主要用来解决数据点密度过大的问题,要注意密度分割是否合理。

当数据范围都非常集中,数据间变化不大时,密度图往往很难观察效果。

下面开始具体的操作案例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值