Python数据分析与可视化

最新推荐文章于 2024-08-15 22:29:27 发布

夏目学习

最新推荐文章于 2024-08-15 22:29:27 发布

阅读量2.1k

点赞数 1

分类专栏： AI Learning & Practice

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42261092/article/details/115000616

版权

AI Learning & Practice 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

数据的四分位

对于每种单独的数据属性来说，可以通过数据的四分位法进行处理、查找和寻找离群值，从而对其进行分析和处理。

四分位数（quartile）是统计学中分位数的一种，即把所有数据由小到大排列并分成四等份，处于三个分割点位置的数据就是四分位数。

第一四分位数（Q1）又称“下四分位数”，等于该样本中所有数据由小到大排列后第25%的数据。

第二四分位数（Q2）又称“中位数”，等于该样本中所有数据由小到大排列后第50%的数据。

第三四分位数（Q3）又称“上四分位数”，等于该样本中所有数据由小到大排列后第75%的数据。

箱体结构：四分位在图形中根据Q1和Q3的位置绘制了一个箱体结构，即根据一组数据5个特征（min，Q1，Q2，Q3，max）的位置绘制的一个箱体结构。这种直观的箱线图反映出一组数据的特征分布，还显示了数据的最小值、中位数和最大值。

离群值：即部分不在框体内的数据被称为离群值，一般被视作特异点加以处理。

作用：四分位图是一个以更好、更直观的方式来识别数据中心异常值的方法，与数据处理的其他方式相比，更能有效让分析人员判断离群值。

数据的标准化

数据的标准化是将数据根据自身一定比例进行处理，落入一个小的特定区间，一般为（-1,1）。这样做的目的是取出数据的单位限制，将其转化为无量纲的纯数值，使得不同单位或量级的指标能够进行比较和加权，其中最常用的是0-1标准化和Z-score标准化。

离差标准化：0-1 normalization

$X=\frac{X-\min }{\max -\min }$

对原始数据的线性变换，使结果落到[0,1]区间。其中，max为样本数据的最大值，min为样本数据的最小值。这种方法有一个缺陷，就是当有数据加入时，可能导致max和min的变化，需要重新定义。

标准差标准化：zero-mean normalization

$X=\frac{x-\mu}{\sigma}$

经过处理的数据符合标准正态分布，即均值为0，标准差为1.其中μ为所有样本数据的均值， $\sigma$ 为所有样本数据的标准差。

一般情况下，通过数据的标准化处理后，数据最终落在（-1,1）的概率为99.7%，在（-1,1）之外的数据被设置成-1和1，以便处理。

数据的平行化处理

对于属性之间的横向比较，即每个目标行属性之间的比较，使用四分位法则较难判断。为了描述和表现每一个不同目标行之间的数据差异和不同，需要另外一种处理和展示方法。

参考：https://blog.csdn.net/wyfcode/article/details/82587440

平行坐标图（parallel coordinates plot）是对于具有多个属性问题的一种可视化方法，下图为平行坐标图的基本样式，数据集的一行数据在平行坐标图中用一条折线表示，纵向是属性值，横向是属性类别（用索引表示），如下图，一条数据[1 3 2 4]对应图中的折线。这条折线是根据属性的索引值和属性值画出来的。

平行坐标图

平行坐标图的解读

首先我们用不同的颜色来标识不同的标签，那么关于属性与标签之间的关系，我们可以从图中获得哪些信息：

（1）折线走势“陡峭”与“低谷”只是表示在该属性上属性值的变化范围的大小，对于标签分类不具有决定意义，但是“陡峭“的属性上属性值间距较大，视觉上更容易区分出不同的标签类别

（2）标签的分类主要看相同颜色的折线是否集中，若在某个属性上相同颜色折线较为集中，不同颜色有一定的间距，则说明该属性对于预测标签类别有较大的帮助

（3）若某个属性上线条混乱，颜色混杂，则较大可能该属性对于标签类别判定没有价值

总结：平行坐标图主要帮助我们观察目标与哪些属性相关，尤其适用在属性超过三个以上的问题中。

热点图-属性相关性检测

热点图是一种判断属性相关性的常用方法，根据不同目标行数据对应的数据相关性进行检测。

不同颜色之间显示了不同的相关性，彩色的深浅显示了相关性的强弱程度。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。