数据处理-scipy.stats.norm函数,归一化的作用

最新推荐文章于 2025-03-29 10:57:46 发布

进步小白

最新推荐文章于 2025-03-29 10:57:46 发布

阅读量5.6k

点赞数 3

分类专栏：笔记文章标签： python 数据挖掘数据分析

本文链接：https://blog.csdn.net/am_student/article/details/121432367

版权

笔记专栏收录该内容

10 篇文章

订阅专栏

scipy.stats.norm函数

可以实现正态分布（也就是高斯分布）

pdf ——概率密度函数标准形式是：
在这里插入图片描述

norm.pdf(x, loc, scale)等同于norm.pdf(y) / scale ，其中 y = (x - loc) / scale
stats.norm主要公共方法如下：
rvs:随机变量（就是从这个分布中抽一些样本）
pdf：概率密度函数。
cdf：累计分布函数
sf：残存函数（1-CDF）
ppf：分位点函数（CDF的逆）
isf：逆残存函数（sf的逆）
stats:返回均值，方差，（费舍尔）偏态，（费舍尔）峰度。
moment:分布的非中心矩。

归一化数据

机器学习模型被互联网行业广泛应用，一般做机器学习应用的时候大部分时间是花费在特征处理上，其中很关键的一步就是对特征数据进行归一化。
归一化后加快了梯度下降求最优解的速度；如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。归一化有可能提高精度；一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。
标准化的流程简单来说可以表达为:将数据按其属性(按列进行)减去其均值，然后除以其方差。最后得到的结果是，对每个属性/每列来说所有数据都聚集在0附近，方差值为1。

作用：去均值和方差归一化。且是针对每一个特征维度来做的，而不是针对样本。
标准差标准化（standardScale）使得经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：
在这里插入图片描述