特征预处理——降维

降维
降维是指在某些限定条件下,较低特征的个数,得到一组“不相关”的主变量的过程

1、特征选择
1.1 方法:

  • 过滤式filter
    • 方差选择:低方差特征过滤
    • 相关系数:特征与特征之间的相关程度
  • 嵌入式embedded
    • 决策树
    • 正则化
    • 深度学习

模块:sklearn.feature_selection

1.2 方差选择
sklearn.feature_selection.VarianceThreshold(threshold=0)

  • Variance.fit_transform(X)
    参数X:numpy array格式的数据[n_samples,n_features]
  • 返回值:训练集中差异低于threshold的特征将被删除
def variance_demo():
    data=pd.read_csv("factor_returns.csv")
    data=data.iloc[:,1:-2]
    print(data)
    transfer=VarianceThreshold(threshold=10)
    data_final=transfer.fit_transform(data)
    print(data_final,data_final.shape)

将原本九个特征筛选剩下7个特征

1.3 相关系数
皮尔逊相关系数(Pearson Correlation Coefficient),反映变量之间相关关系密切程度的统计指标在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
所以我们最终得出结论是广告投入费与月平均销售额之间有高度的正相关关系

  • 特点
    相关系数的值介于-1与+1之间,即-1≤r≤+1。其性质如下:
    • 当r>0时,表示两变量正相关,r<0时, 两变量为负相关
    • 当|r|=1时, 表示两变量为完全相关,当r=0时,表示两变量间无相关关系
    • 当0<|r|<1时,表示两变量存在一定程度的相关。 且|r|越接近1,两变量间线性关系越密切; |r|越接近于0,表示两变量的线性相关越弱
    • 一般可按三级划分: |r|<0.4为低度相关; 0.4<|r|<0.7为显著性相关; 0.7<|r|<1为高度线性相关
from scipy.stats import pearsonr
……
r = pearsonr(data["pe_ratio"],data["pb_ratio"])
print(r)

对于相关性系数比较高的特征,有三种处理方法

  1. 选取其中一个
  2. 加权求和
  3. 主成分分析

主成分分析:
定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量
作用:是数据维数压缩,尽可能降低原数据的维数(复杂度), 损失少量信息。
应用:回归分析或者聚类分析当中

 sklearn.decomposition.PCA(n_components=None)
  • n_ components:
    • 小数:表示保留百分之多少的信息
    • 整数:减少到多少特征
def PCA_demo():
    data= [[2,8,4,5],[6,3,0,8],[5,4,9,1]]
    transfer=PCA(2)
    data_new=transfer.fit_transform(data)
    print(data_new)

结果:
在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据预处理中的自定义转换是指将数据集中的原始数据按照一定的规则进行处理,以便于后续的模型训练和应用。C++作为一门强类型语言,提供了丰富的数据类型和操作函数,可以非常方便地实现数据预处理中的自定义转换。下面以一个简单的案例来演示如何使用C++实现数据预处理中的自定义转换。 假设我们有一个包含学生信息的数据集,其中每个学生的信息包括姓名、年龄、性别与成绩四个属性。现在我们要对这个数据集进行处理,将每个学生的成绩按照以下规则转换为一个0~5的整数: - 小于60分的成绩转换为0 - 60~69分的成绩转换为1 - 70~79分的成绩转换为2 - 80~89分的成绩转换为3 - 90~99分的成绩转换为4 - 100分的成绩转换为5 下面是一个使用C++实现的解决方案: ```c++ #include <iostream> #include <vector> #include <string> using namespace std; // 定义一个结构体,表示学生信息 struct Student { string name; int age; char gender; int score; }; // 自定义转换函数,将成绩转换为0~5的整数 int score_transform(int score) { if (score < 60) { return 0; } else if (score < 70) { return 1; } else if (score < 80) { return 2; } else if (score < 90) { return 3; } else if (score < 100) { return 4; } else { return 5; } } int main() { // 定义一个学生信息列表 vector<Student> students = { {"张三", 18, 'M', 75}, {"李四", 19, 'F', 68}, {"王五", 20, 'M', 92}, {"赵六", 21, 'F', 85} }; // 遍历学生信息列表,将成绩转换为整数 for (auto& student : students) { student.score = score_transform(student.score); } // 输出转换后的学生信息列表 for (auto& student : students) { cout << student.name << " " << student.age << " " << student.gender << " " << student.score << endl; } return 0; } ``` 在上面的代码中,我们首先定义了一个包含学生信息的结构体`Student`,并且定义了一个自定义转换函数`score_transform`,用于将成绩转换为整数。然后我们定义了一个学生信息列表`students`,并且遍历该列表,将每个学生的成绩按照自定义转换函数进行转换。最后我们输出转换后的学生信息列表。 需要注意的是,在实际应用中,我们可能需要进行更加复杂的自定义转换,例如对数据进行归一化、标准化、降维等处理。C++提供了丰富的函数库和工具,可以帮助我们实现这些复杂的自定义转换。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值