机器学习篇----预处理

最新推荐文章于 2024-09-29 21:48:15 发布

JarvisAI

最新推荐文章于 2024-09-29 21:48:15 发布

阅读量145

点赞数

文章标签：机器学习 python

本文链接：https://blog.csdn.net/JarvisAI/article/details/106892308

版权

Imputer(missing_values=’NaN’, strategy=’mean’, axis=0)

完成缺失值插补
Imputer.fit_transform(X)
- X:numpy array 格式的数据[n_samples, n_features]
- 返回值:转换后的形状相同的array

pandas:dropna\ fillna 数据当中的缺失值：np.nan

特征选择
可以使用特征选择的两大原因

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中一部分特征

主要方法（三大武器）：

sklearn特征选择API
sklearn.feature_selection.VarianceThreshold
语法
VarianceThreshold(threshold = 0.0)

删除所有低方差特征
Varance.fit_transform(X)
- X:numpy array格式的数据[n_samples, n_features]
  -返回值：训练集差异地狱threshold的特征将会被删除
  默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征

主成分分析
PCA：

PCA语法：
Sklearn.decomposition
PCA(n_components=None)

将数据分解为较低维数空间
n_components：
- 小数：0~1 百分比信息保存一般为90%~95%
- 整数：减少到的特征数量
PCA.fit_transform(X)
- X:numpy array格式的数据[n_samoles, n_features]
- 返回值：转换后指定维度的array