数据特征选定

最新推荐文章于 2023-09-12 15:57:45 发布

liweiwei1419

最新推荐文章于 2023-09-12 15:57:45 发布

阅读量567

点赞数

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/lw_power/article/details/83184594

版权

数据分析专栏收录该内容

11 篇文章 0 订阅

订阅专栏

数据特征选定

目的：最大限度地从原始数据中提取出合适的特征。

单变量特征选定

统计分析可以用来分析和选择对结果影响最大的数据特征；
可以选用一系列统计方法来选定数据特征；
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，偏离程度决定了卡方值的大小；
卡方值越大，越不符合
卡方值越小，偏差越小，越趋于符合；
若两个值完全相等，卡方值就为 0，表示理论值完全符合。

# 通过卡方检验选定数据特征

import numpy as np
import pandas as pd
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)
np.set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
print(features)

递归特征消除（RFE）

RFE 使用一个基模型来进行多轮训练，每轮训练以后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练；
通过每一个基础模型的精度，找到对最终的预测结果影响最大的数据特征；

# 通过递归消除来选定特征
import pandas as pd
import numpy as np
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("特征个数：")
print(fit.n_features_)
print("被选定的特征：")
print(fit.support_)

for feature, selected in zip(names, fit.support_):
    if selected:
        print(feature)

print("特征排名：")
# 被标记为 1 的特征是被选定的特征
print(fit.ranking_)

主成分分析

PCA 为了让映射后的样本具有最大的发散性，无监督降维
LDA 是为了让映射后的样本具有最好的分类性能，有监督降维

# 通过主要成分分析选定数据特征
import pandas as pd
from sklearn.decomposition import PCA

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
pca = PCA(n_components=3)
fit = pca.fit(X)
print("解释方差：%s" % fit.explained_variance_ratio_)
print(fit.components_)
print(fit.components_.shape)

特征的重要性

决策树算法、随机森林算法、极端随机树算法都可以用来计算数据特征的重要性。

# 通过决策树计算特征的重要性
import pandas as pd
from sklearn.ensemble import ExtraTreesClassifier

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
model = ExtraTreesClassifier()
fit = model.fit(X, Y)
print(fit.feature_importances_)

另外，线性回归以及正则化的线性回归（岭回归、LASSO 回归）、逻辑回归都可以计算得到特征的权重，通过权重的大小，也能反映特征的重要性，特别地，LASSO 回归会让一些特征的权重变为 0。

参考资料：
1、使用 scikit-learn 进行特征选择
Read more: http://bluewhale.cc/2016-11-25/use-scikit-learn-for-feature-selection.html#ixzz5UMdz0779
说明：这篇文章中还介绍了使用方差的阈值进行特征选择的操作。

liweiwei1419

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据特征选定

数据特征选定目的：最大限度地从原始数据中提取出合适的特征。单变量特征选定统计分析可以用来分析和选择对结果影响最大的数据特征；可以选用一系列统计方法来选定数据特征；卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，偏离程度决定了卡方值的大小；卡方值越大，越不符合卡方值越小，偏差越小，越趋于符合；若两个值完全相等，卡方值就为 0，表示理论值完全符合。# 通过卡方检验选定...
复制链接

扫一扫

专栏目录