机器学习基础 - 数据降维，数据的划分

最新推荐文章于 2023-09-07 08:30:00 发布

charlesAI770

最新推荐文章于 2023-09-07 08:30:00 发布

阅读量269

点赞数

分类专栏：机器学习文章标签： python 算法机器学习

本文链接：https://blog.csdn.net/charlesAI/article/details/119777109

版权

本文介绍了机器学习中的数据降维方法，包括特征选择和主成分分析（PCA）。特征选择通过VarianceThreshold进行过滤，PCA则用于压缩数据维数。此外，文章还探讨了用户对物品类别的喜好细分降维，并讲解了机器学习的基本概念、开发流程、模型分类以及数据划分的重要性。在数据处理方面，提到了sklearn库中的数据集和转换器、估计器的使用。

摘要由CSDN通过智能技术生成

数据降维

减少特征数量

特征选择

定义
从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值。
原因
冗余：部分特征的相关度高，容易消耗计算性能
噪声：部分特征对预测结果有负影响
过滤式VarianceThreshold
过滤方差：方差为0或者很小，数据不具有代表性

(1) 语法

VarianceThreshold(threshold = 0.0)
删除所有低方差特征
Variance.fit_transform(X,y)
返回值：训练集差异低于threshold的特征将被删除。
默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。

(2) 实现

from sklearn.feature_selection import VarianceThreshold  
  
def var():   #删除低反差的特征  
 var = VarianceThreshold(threshold=0.0)  
  
    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])  
  
    print(data)  
  
    return None  
  
if __name__ == "__main__":    
    var()
--------------------------------
[[2 0]
 [1 4]
 [1 1]]

主成分分析(PCA)

定义
数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。当特征达到上百个时，可以削减特征的数量。
语法
•PCA(n_components=None)
n_components：
小数形式：0-1百分比，指定信息的保留度，一般是0.9-0.95
整数形式：减少到的特征数量（一般不用）
将数据分解为

最低0.47元/天解锁文章

charlesAI770

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础 - 数据降维，数据的划分

数据降维减少特征数量特征选择定义从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值。原因冗余：部分特征的相关度高，容易消耗计算性能噪声：部分特征对预测结果有负影响过滤式VarianceThreshold过滤方差：方差为0或者很小，数据不具有代表性(1) 语法VarianceThreshold(threshold = 0.0)删除所有低方差特征Variance.fit_transform(X,y)返回值：训练集差异低于t
复制链接

扫一扫

专栏目录