机器学习（8）——特征工程（2）

WHJ226

已于 2022-07-06 20:50:52 修改

阅读量956

点赞数 4

分类专栏：机器学习文章标签：大数据

于 2022-06-25 08:00:00 首次发布

本文链接：https://blog.csdn.net/WHJ226/article/details/125445541

版权

本文详细探讨了特征提取和降维的方法，包括主成分分析（PCA）、核主成分分析（KPCA）、流形学习、t-SNE和多维尺度分析（MDS）。针对数据不平衡问题，介绍了过采样、欠采样以及它们的综合方法，如SMOTE、SMOTEENN和SMOTETomek，以实现类别均衡。通过实例展示了这些技术在数据分布和分类任务中的应用和效果。

摘要由CSDN通过智能技术生成

1 特征提取和降维

前面介绍的特征选择方法获得的特征，是从原始数据中抽取出来的，并没有对数据进行变换。而特征提取和降维，则是对原始数据特征进行相应的数据变换，并且通常会选择比原始特征数量少的特征，同时达到数据降维的目的。常用的特征提取和降维方法有主成分分析、核主成分分析、流形学习、t-SNE、多维尺度分析等方法。

首先将前面使用的酒精数据集中每个特征进行数据标准化，如下：

## 图像显示中文的问题
import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font= "Kaiti",style="ticks",font_scale=1.4)
## 导入会使用到的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn import preprocessing
from scipy.stats import boxcox
import re
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
##以上设置和库的导入不在重复，以下程序只会导入新的模块

from sklearn.feature_selection import VarianceThreshold,f_classif
## 导入取酒的多分类数据集，用于演示
from sklearn.datasets import load_wine
wine_x,wine_y = load_wine(return_X_y=True)

from sklearn.decomposition import PCA, KernelPCA
from sklearn.manifold import Isomap, MDS, TSNE
from sklearn.preprocessing import StandardScaler
## 对酒的特征数据进行标准化
wine_x,wine_y = load_wine(return_X_y=True)
wine_x = StandardScaler().fit_transform(wine_x)

1.1 主成分分析

主成分分析（Principal Component Analysis, PCA）是采用一种数学降维的方法，在损失很少信息的前提下，找出几个综合变量作为主成分，来代替原来众多的变量，使这些主成分能够尽可能地代表原始数据的信息，其中每个主成分都是原始变量的线性组合，而且各个主成分之间不相关（线性无关）。通过主成分分析，可以从事物错综复杂的关系中找到一些主要成分（通常选择累积贡献率≥85%的前m个成分），从而能够有效利用大量统计信息进行定性分析，揭示变量之间的内在关系，得到一些对事物特征及其发展规律的深层次信息和启发，推动研究进一步深入。通常情况下使用的主成分个数远小于原始特征个数，所以可以起到特征提取和降维的目的。

针对准备好的酒精数据集wine_x，下面对其进行主成分分析，从原始数据中提取特征，在程序中获取了数据的13个主成分数据，并且可视化出每个主成分对数据的解释方差大小。

## 使用主成分分析对酒数据集进行降维
pca = PCA(n_components = 13,random_state = 123)
pca.fit(wine_x)
## 可视化主成分分析的解释方差得分
exvar = pca.explained_variance_
plt.figure(figsize=(10,6))
plt.plot(exvar,"r-o")
plt.hlines(y = 1, xmin = 0, xmax = 12)
plt.xlabel("特征数量")
plt.ylabel("解释方差大小")
plt.title("主成分分析")
plt.show()

运行结果如下：

从图中可以发现，主成分分析结果使用数据的前3个主成分即可对其进行良好的数据建模。针对获取的数据前3个主成分特征，可以在三维（3D）空间中将数据的分布进行可视化，如下：

## 使用主成分分析对酒数据集进行降维
pca = PCA(n_components = 13,random_state = 123)
pca.fit(wine_x)
## 可以发现使用数据的前3个主成分较合适
pca_wine_x = pca.transform(wine_x)[:,0:3]
print(pca_wine_x.shape)
## 在3D空间中可视化主成分分析后的数据空间分布
colors = ["red","blue","green"]
shapes = ["o","s","*"]
fig = plt.figure(figsize=(10,6))
## 将坐标系设置为3D
ax1 = fig.add_subplot(111, projection="3d")
for ii,y in enumerate(wine_y):
    ax1.scatter(pca_wine_x[ii,0],pca_wine_x[ii,1],pca_wine_x[ii,2],
                s = 40,c = colors[y],marker = shapes[y])
ax1.set_xlabel("主成分1",rotation=20)
ax1.set_ylabel("主成分2",rotation=-20)
ax1.set_zlabel("主成分3",rotation=90)
ax1.azim = 225
ax1.set_title("主成分特征空间可视化")
plt.show()

运行结果如下：

(178, 3)

1.2 核主成分分析

PCA是线性的数据降维技术，而核主成分分析（KPCA）可以得到数据的非线性表示，进行数据特征提取的同时可以对数据进行降维。下面使用KernelPCA()函数对数据进行特征提取和降维，指定核函数时使用"rbf"核，如下：

## 使用核主成分分析获取数据的主成分
kpca = KernelPCA(n_components = 13,kernel = "rbf", ## 核函数为rbf核
                 gamma = 0.2,random_state = 123)
kpca.fit(wine_x)
## 可视化核主成分分析的中心矩阵特征值
lambdas = kpca.lambdas_
plt.figure(figsize=(10,6))
plt.plot(lambdas,"r-o")
plt.hlines(y = 4, xmin = 0, xmax = 12)
plt.xlabel("特征数量")
plt.ylabel("中心核矩阵的特征值大小")
plt.title("核主成分分析")
plt.show()

## 可以发现使用数据的前3个核主成分较合适

运行结果如下：

针对该数据同样可以使用数据的前3个核主成分作为提取到的特征。

针对获取的数据前3个核主成分特征，可以在三维（3D）空间中将数据的分布进行可视化，如下：

## 使用核主成分分析获取数据的主成分
kpca = KernelPCA(n_components = 13,kernel = "rbf", ## 核函数为rbf核
                 gamma = 0.2,random_state = 123)
kpca.fit(wine_x)
# ## 可视化核主成分分析的中心矩阵特征值
# lambdas = kpca.lambdas_
# plt.figure(figsize=(10,6))
# plt.plot(lambdas,"r-o")
# plt.hlines(y = 4, xmin = 0, xmax = 12)
# plt.xlabel("特征数量")
# plt.ylabel("中心核矩阵的特征值大小")
# plt.title("核主成分分析")
# plt.show()
#
# ## 可以发现使用数据的前3个核主成分较合适

## 获取前3