数据特征选定
目的:最大限度地从原始数据中提取出合适的特征。
单变量特征选定
- 统计分析可以用来分析和选择对结果影响最大的数据特征;
- 可以选用一系列统计方法来选定数据特征;
- 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,偏离程度决定了卡方值的大小;
- 卡方值越大,越不符合
- 卡方值越小,偏差越小,越趋于符合;
- 若两个值完全相等,卡方值就为 0,表示理论值完全符合。
# 通过卡方检验选定数据特征
import numpy as np
import pandas as pd
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)
np.set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
print(features)
递归特征消除(RFE)
- RFE 使用一个基模型来进行多轮训练,每轮训练以后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练;
- 通过每一个基础模型的精度,找到对最终的预测结果影响最大的数据特征;
# 通过递归消除来选定特征
import pandas as pd
import numpy as np
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("特征个数:")
print(fit.n_features_)
print("被选定的特征:")
print(fit.support_)
for feature, selected in zip(names, fit.support_):
if selected:
print(feature)
print("特征排名:")
# 被标记为 1 的特征是被选定的特征
print(fit.ranking_)
主成分分析
- PCA 为了让映射后的样本具有最大的发散性,无监督降维
- LDA 是为了让映射后的样本具有最好的分类性能,有监督降维
# 通过主要成分分析选定数据特征
import pandas as pd
from sklearn.decomposition import PCA
# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
pca = PCA(n_components=3)
fit = pca.fit(X)
print("解释方差:%s" % fit.explained_variance_ratio_)
print(fit.components_)
print(fit.components_.shape)
特征的重要性
- 决策树算法、随机森林算法、极端随机树算法都可以用来计算数据特征的重要性。
# 通过决策树计算特征的重要性
import pandas as pd
from sklearn.ensemble import ExtraTreesClassifier
# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
model = ExtraTreesClassifier()
fit = model.fit(X, Y)
print(fit.feature_importances_)
另外,线性回归以及正则化的线性回归(岭回归、LASSO 回归)、逻辑回归都可以计算得到特征的权重,通过权重的大小,也能反映特征的重要性,特别地,LASSO 回归会让一些特征的权重变为 0。
参考资料:
1、使用 scikit-learn 进行特征选择
Read more: http://bluewhale.cc/2016-11-25/use-scikit-learn-for-feature-selection.html#ixzz5UMdz0779
说明:这篇文章中还介绍了使用方差的阈值进行特征选择的操作。