自学机器学习——day 0. 特征变量的预处理

最新推荐文章于 2024-09-17 02:13:06 发布

m0_74102364

最新推荐文章于 2024-09-17 02:13:06 发布

阅读量605

点赞数 27

文章标签：机器学习数据分析

本文链接：https://blog.csdn.net/m0_74102364/article/details/139702205

版权

本篇主要是我初学对特征值的预处理中觉得比较重要和关键的几步，实际上对于特征的预处理的过程很多，要具体问题具体对待，这里主要介绍几种较为常见的方法。本篇主要介绍对特征数据统计特征和对数据进行归一化和标准化的处理。

样本变量的统计特征

我们获取的常见数据向量的统计量为：最小值、最大值、均值、中位数、众数、标准差、方差、分位数。统计特征可以反映一个数据向量的集中程度、分布规律以及离散程度等。

数据向量的统计量可以分为不同的阶数，其中一阶统计量为均值，二阶统计量为方差，但往往，这些低阶的统计量只能粗略的得到数据向量的集中趋势。我们无法得到更加深层的信息，尤其是对于时间序列数据，往往需要获取偏斜程度以及峰度等信息，因此我们需要更高阶的统计量。

其实用好理解的方式来解释高阶（n阶）统计量就是对变量的n次方组成的新数据向量求期望值。虽然只进行了较简单的处理，但得到的高阶统计量却可以反映更为深层的数据规律。

例如：三阶矩（偏度）可以说明分布是否对称，以及数据的偏向。

四阶矩（峰度）可以说明数据分布的峰度相对于正态分布是更陡峭还是平坦，通常峰度大于3表示为尖峰，比正态分布更加陡峭。

这里出现了一个新词叫“高阶矩”，n阶矩其实也可以称为是n阶统计量。

那么为什么会引入“矩”这个概念？

可以类比我们物理力学中的概念，经典的杠杆问题中，要想天平平衡，两边的力矩需要一致

力矩=力 * 距离

这说明，平衡不仅取决于绝对力量的大小，还取决于他相关的长度

现在我们回到我们的统计，概率的环境下，假设我们在买彩票，下面是奖金以及对应的获奖概率

中奖金额概率
100 10%
1000 1%
10000 0.1%

那么我们对获奖的期望应该与卖彩票的实际设置是平衡的，不然就会对其中一方产生危害，因此：

$E\left ( x \right )=\sum \left ( pi \cdot xi \right )$

其中， $pi$ 为每种金额对应的概率， $xi$ 为获奖金额

那么我们的获奖金额期望就是天平的左端，实际彩票设置的获奖金额就是天平的右端，因此，想要这个天平保持平衡，需要两边的值，也就是“矩”相等。

这样延伸到统计概率的领域中，数据变量的期望即可以理解成“矩”。

对于连续变量，或是以另外的变量作为自变量映射为函数的变量（例如一个时间序列变量： $X\left ( t \right )=t+1$ ）。我们可以构建矩生成函数，通过对生成函数泰勒展开可以确定变量的高阶矩。

矩生成函数：顾名思义，就是用来生成数据变量矩的函数

$M\frac{^{{}}}{x}\left ( t \right )=E\left [ e^{tx} \right ]=\sum_{n=0}^{\propto }\frac{t^{n}}{n!}E\left [ x^{n} \right ]$

其中，x是变量数据，t是实数参数，通常得到变量的矩，t=0；M为矩生成函数

这里也就是说，矩生成函数就是对 $e^{_{tx}}$ 的期望值。如果进一步对矩生成函数进行泰勒展开，就得到了最右侧的式子，则泰勒展开中 $x^{n}$ 的系数即为变量x的n阶矩。

上面的矩生成函数适用于连续的变量，而对于离散的变量值，则直接用期望的定义式进行计算

$E\left ( x^{n} \right )=\sum pi \cdot x^{n}$

下面的代码展示了离散变量数据的1-4阶矩的计算

import numpy as np  
from scipy.stats import norm  
  
# 生成正态分布的随机样本  
mu, sigma = 0, 1  # 均值和标准差  
samples = norm.rvs(mu, sigma, size=1000)  
  
# 计算一阶矩（均值）  
mean = np.mean(samples)  
print(f"一阶矩（均值）: {mean}")  
  
# 计算二阶矩（方差）  
variance = np.var(samples)  
print(f"二阶矩（方差）: {variance}")  
  
# 计算三阶矩（偏度）  
skewness = (np.mean((samples - mean)**3)) / (variance**(3/2))  
print(f"三阶矩（偏度）: {skewness}")  
  
# 计算四阶矩（峰度）  
kurtosis = (np.mean((samples - mean)**4)) / (variance**2)  
print(f"四阶矩（峰度）: {kurtosis}")

数据标准化

最简单的理解，就是将一列数据转化为均值为0，方差为1的标准正态分布的形式。通过去掉特征向量的平均值将数据转换至中心点，然后通过将非常量特征值除以其标准差来进行缩放。

$z=\frac{\left |x-\mu \right | }{\delta }$

from sklearn improt preprocessing
import numpy as np

#对每列数据分别进行标准化
#也就是说，每一行代表一个个体，而每一列是一个特征
x_train=np.array([[1,-1,2],[2,0,0],[0,1,-1]])
x_scaled=preprocessing.scale(x_train)

from sklearn improt preprocessing
import numpy as np

#对每列数据分别进行标准化
#也就是说，每一行代表一个个体，而每一列是一个特征
x_train=np.array([[1,-1,2],[2,0,0],[0,1,-1]])
scaler=preprocessing.StandardScaler().fit(X_train)
#生成测试集
x_test=np.array([[0,1,-2],[2,-3,1],[3,1,1]])
#使得测试集标准化的时候，使用与训练集相同的标准化参数
x_test_scaled=scaler.transform(x_test)

上面的操作确保了两组数据使用的是同样的标准化参数，使得测试集平均值与方差与训练集的一致，而不是重新在测试集的基础上重新计算平均值和方差。这样新数据就会使用与训练集相同的均值和标准差进行标准化，从而保持数据分布的一致性。

这是非常重要的，因为机器学习模型在训练时是基于特定分布的数据进行优化的。如果我们在测试或预测时使用不同的分布（即使用不同的均值和标准差进行标准化），那么数据就会呈现出不同的特征，这可能导致模型的性能下降。

还有一种非线性标准化方法，分位数转换

计算分位数

1. 首先，对数列进行排序

2. 然后，根据所需的分位数级别（如四分位数，百分位数），确定每个数据点所在的分位数位置

确定目标分布的分位数

首先选择一个目标分布（通常是正态分布或均匀分布），并且计算其相应的分位数值

映射原始数据到目标分布

将原始数据的每个分位数值映射到目标分布的相应分位数值

实例：

假设我们有一列数字：[1, 5, 3, 8, 2]，我们想要进行四分位数标准化。

首先，排序得到：[1, 2, 3, 5, 8]。
计算四分位数：Q1=2, Q2=3, Q3=5。
假设目标分布是均匀分布（0-100），则四分位数对应为：Q1=25, Q2=50, Q3=75。
映射原始数据：1映射到25，2映射到25（或插值到稍大于25的值），3映射到50，5映射到75（或插值），8映射到100。