数据特征选定

数据特征选定

目的:最大限度地从原始数据中提取出合适的特征。

单变量特征选定

  • 统计分析可以用来分析和选择对结果影响最大的数据特征;
  • 可以选用一系列统计方法来选定数据特征;
  • 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,偏离程度决定了卡方值的大小;
  • 卡方值越大,越不符合
  • 卡方值越小,偏差越小,越趋于符合;
  • 若两个值完全相等,卡方值就为 0,表示理论值完全符合。
# 通过卡方检验选定数据特征

import numpy as np
import pandas as pd
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)
np.set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
print(features)

递归特征消除(RFE)

  • RFE 使用一个基模型来进行多轮训练,每轮训练以后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练;
  • 通过每一个基础模型的精度,找到对最终的预测结果影响最大的数据特征;
# 通过递归消除来选定特征
import pandas as pd
import numpy as np
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("特征个数:")
print(fit.n_features_)
print("被选定的特征:")
print(fit.support_)

for feature, selected in zip(names, fit.support_):
    if selected:
        print(feature)

print("特征排名:")
# 被标记为 1 的特征是被选定的特征
print(fit.ranking_)

主成分分析

  • PCA 为了让映射后的样本具有最大的发散性,无监督降维
  • LDA 是为了让映射后的样本具有最好的分类性能,有监督降维
# 通过主要成分分析选定数据特征
import pandas as pd
from sklearn.decomposition import PCA

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
pca = PCA(n_components=3)
fit = pca.fit(X)
print("解释方差:%s" % fit.explained_variance_ratio_)
print(fit.components_)
print(fit.components_.shape)

特征的重要性

  • 决策树算法、随机森林算法、极端随机树算法都可以用来计算数据特征的重要性。
# 通过决策树计算特征的重要性
import pandas as pd
from sklearn.ensemble import ExtraTreesClassifier

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
model = ExtraTreesClassifier()
fit = model.fit(X, Y)
print(fit.feature_importances_)

另外,线性回归以及正则化的线性回归(岭回归、LASSO 回归)、逻辑回归都可以计算得到特征的权重,通过权重的大小,也能反映特征的重要性,特别地,LASSO 回归会让一些特征的权重变为 0。

参考资料:
1、使用 scikit-learn 进行特征选择
Read more: http://bluewhale.cc/2016-11-25/use-scikit-learn-for-feature-selection.html#ixzz5UMdz0779
说明:这篇文章中还介绍了使用方差的阈值进行特征选择的操作。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值