数据挖掘——特征选择

Ssaty.

已于 2023-05-31 16:15:08 修改

阅读量675

点赞数 1

分类专栏： Educoder实训文章标签：数据挖掘 python sklearn

于 2022-11-17 16:02:32 首次发布

本文链接：https://blog.csdn.net/Junds0/article/details/127905800

版权

1398 篇文章 3856 订阅 ¥39.90 ¥99.00

订阅专栏

本文介绍了数据挖掘中的特征选择方法，包括基于统计值的VarianceThreshold，以及基于模型的递归特征消除（RFE）方法。在手写字体识别任务中，使用这些方法进行特征筛选，提升模型性能。

摘要由CSDN通过智能技术生成

任务描述
本关任务：通过学习下面几种常见的特征选择过滤方法，学会如何对数据进行去除无关冗余属性的处理。

相关知识
为了完成本关任务，你需要熟练掌握以下几种基于统计值方法的特征选择：

基于统计值的方法，
基于泊松相关性的方法，
基于卡方检验方法,
基于方差分析方法,
几种常见函数使用。
基于统计值的方法
特征在训练数据中所有取值的方差 σ：

σ 小，意味着特征在所有实例的取值差别不大，特征的区分能力不强。

σ 小于给定阈值，该特征被过滤。

import numpy as np # 导入numpy科学计算库
from scipy.stats import pearsonr  # 调用计算相关性系数库 

size= 30 # 数据集规模
np.random

了解本专栏

关注

专栏目录