数据的处理和变换

数据归一化

数据的归一化是将数据按比例缩放,使之落入一个小的特定范围。
最典型的是将数据统一映射到【0,1】区间上。

数据归一化,简单说就是对不同性质的数据进行书同文、车同轨的规范化,将数据映射到同一个范围,这样便于对比分析不同性质的数据之间的区别和联系,而数据之间更普遍的联系会让他们产生1+1>2的效果。无论是从整体还是局部上看,数据规划都会让我们对数据的认识更加深入透彻,也会让数据发挥出更强的生命力,带给我们意想不到的惊喜。

对多维数据通过对每个维度数据归一化可以辅助观察维度间的关系。

线性变换

在这里插入图片描述

反正切变换

在这里插入图片描述

数据标准化

把值全都映射到标准正态分布上。

数据平滑化

用相应的曲线去拟合数据内部两个变量之间的关系,进而判断数据的趋势,这就是曲线拟合(将数据转化为平滑连续的曲线)或者叫做数据平滑化,曲线拟合可以画点成线,将数据转化成平滑连续的曲线,这有利于我们将注意力从微小的细节中转移到更高层面的趋势观察和判断上来。
在这里插入图片描述
我们生活中的各种数据千奇百怪,与之相对应可用来拟合的曲线类型也是多种多样,如常见的模拟一次方程曲线模拟指数函数曲线模拟多项式曲线自定义方程曲线等。
基本思想:
尽可能让低的数据点与高数据点,尽可能均匀的分布在拟合曲线周围。

数据采样

获取或处理全部数据集代价太高,时间开销无法接受,就要用到数据采样。
选出具备原始数据特征的数据。
统计学的数据采样是从一个统计群体中选出个体子集来估计整个群体的特征。
信号领域的数据采样是将连续信号简化为离散信号。

分箱

分箱又称离散化是将连续性数据分成很多段再进行下一步分析或处理的过程,这里所说的段是指区间,也可以把区间想象成一个一个放数据的箱子。
在这里插入图片描述

数据降维

数据降维可能不能非常忠实的反映每个维度,但可以反映基于全部维度的整体分布信息。
数据降维有时也称投影,它把数据从多维的空间投影到二维或者三维的空间里,再对降维后的数据应用简单的可视化手段,让我们看到数据的总体分布情况。
常见降维方法:
在这里插入图片描述

数据聚类

聚类可以把相似的个体归在一起,然后再做进一步的分析,可视化可以作为展示聚类的手段,而在某些场景中可视化也可以是产生聚类的方法。

K-means:

k代表聚类的个数。
给数据通过一些参考点归为不同的类,计算均值,然后把均值所在的点,作为归类的参考点再重新归类。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
常见聚类方法:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值