机器学习一（4）特征降维与主成分

最新推荐文章于 2023-08-16 15:35:06 发布

p&b

最新推荐文章于 2023-08-16 15:35:06 发布

阅读量868

点赞数

分类专栏： python 文章标签： python 机器学习

本文链接：https://blog.csdn.net/qq_37754696/article/details/109537889

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

学习目标
知道特征选择的嵌入式、过滤式以及包裹氏三种方式
应用VarianceThreshold实现删除低方差特征
了解相关系数的特点和计算
应用相关性系数实现特征选择

4.1 特征选择

数据中包含冗余或无关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。
方法

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
方差选择法：低方差特征过滤
相关系数- 特征与特征之间的相关程度
皮尔逊相关系数取值范围：–1≤ r ≤+1

                             特征与特征之间相关性很高,解决方法：
                                 1）选取其中一个
                                 2）加权求和
                                 3）主成分分析

Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
决策树:信息熵、信息增益
正则化：L1、L2
深度学习：卷积等
模块sklearn.feature_selection

4.2过滤式

删除低方差的一些特征，如果特征方差小：某个特征大多样本的值比较相近
API：VarianceThreshold
简化数据分析的复杂程度

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
删除所有低方差特征
Variance.fit_transform(X)
X:numpy array格式的数据[n_samples,n_features]
返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。

实例分析
对某些股票的指标特征之间进行一个筛选，数据在"factor_regression_data/factor_returns.csv"文件当中,除去’index,‘date’,'return’列不考虑（这些类型不匹配，也不是所需要指标）
分析
1、初始化VarianceThreshold,指定阀值方差

2、调用fit_transform

def variance_demo():
    #过滤低方差特征
    data=pd.read_csv('C:/Users/zyw/Desktop/机器学习/机器学习day1资料/02-代码/factor_returns.csv')
    print("data:\n", data)
    data=data.iloc[:,1:-2]#取所有行，第二列到倒数第二列，左闭右开
    print("data:\n", data)
    transfer=VarianceThreshold(threshold=10)
            #方差选择法，先要计算各个特征的方差，返回值为特征选择后的数据
            # #参数threshold为方差的阈值,然后根据阈值，选择方差大于阈值的特征。
    data_new=transfer.fit_transform(data)
    print('data_new:\n',data_new,data_new.shape)
    return None

4.3相关系数：皮尔逊相关系数

反映变量之间相关关系密切程度的统计指标
相关系数的值介于–1与+1之间，即–1≤ r ≤+1。其性质如下：

当r>0时，表示两变量正相关，r<0时，两变量为负相关
当|r|=1时，表示两变量为完全相关，
当r=0时，表示两变量间无相关关系
当0<|r|<1时，表示两变量存在一定程度的相关。
且|r|越接近1，两变量间线性关系越密切；|r|越接近于0，表示两变量的线性相关越弱
一般可按三级划分：|r|<0.4为低度相关；0.4≤|r|<0.7为显著性相关；0.7≤|r|<1为高度线性相关
Python实现统计描述以及计算皮尔逊相关系数
皮尔逊相关系数用法以及p-value和置信度的原理及区别
API

from scipy.stats import pearsonr
x : (N,) array_like
y : (N,) array_like Returns: (Pearson’s correlation coefficient, p-value)

案例分析
股票的财务指标相关性计算

import pandas as pd
from scipy.stats import pearsonr

def pearsonr_demo():
    """
    相关系数计算
    :return: None
    """
    data = pd.read_csv("factor_returns.csv")

    factor = ['pe_ratio', 'pb_ratio', 'market_cap', 'return_on_asset_net_profit', 'du_return_on_equity', 'ev',
              'earnings_per_share', 'revenue', 'total_expense']

    for i in range(len(factor)):
        for j in range(i, len(factor) - 1):
            print(
                "指标%s与指标%s之间的相关性大小为%f" % (factor[i], factor[j + 1], pearsonr(data[factor[i]], data[factor[j + 1]])[0]))

    return None

我们也可以通过画图来观察结果

import matplotlib.pyplot as plt
plt.figure(figsize=(20, 8), dpi=100)
plt.scatter(data['revenue'], data['total_expense'])
plt.show()

在这里插入图片描述

4.4主成分

在这里插入图片描述

sklearn.decomposition.PCA(n_components=None)
将数据分解为较低维数空间
n_components:
**小数：表示保留百分之多少的信息
整数：减少到多少特征**
PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
返回值：转换后指定维度的array

例子

from sklearn.decomposition import PCA

def pca_demo():
    """
    对数据进行PCA降维
    :return: None
    """
    data = [[2,8,4,5], [6,3,0,8], [5,4,9,1]]

    # 1、实例化PCA, 小数——保留多少信息
    transfer = PCA(n_components=0.9)
    # 2、调用fit_transform
    data1 = transfer.fit_transform(data)

    print("保留90%的信息，降维结果为：\n", data1)

    # 1、实例化PCA, 整数——指定降维到的维数
    transfer2 = PCA(n_components=3)
    # 2、调用fit_transform
    data2 = transfer2.fit_transform(data)
    print("降维到3维的结果：\n", data2)

    return None

**********************************************************
保留90%的信息，降维结果为：
 [[ -3.13587302e-16   3.82970843e+00]
 [ -5.74456265e+00  -1.91485422e+00]
 [  5.74456265e+00  -1.91485422e+00]]
降维到3维的结果：
 [[ -3.13587302e-16   3.82970843e+00   4.59544715e-16]
 [ -5.74456265e+00  -1.91485422e+00   4.59544715e-16]
 [  5.74456265e+00  -1.91485422e+00   4.59544715e-16]]

案例分析
合并表，使得user_id与aisle在一张表当中
进行交叉表变换
pandas列联表crosstab透视图pivot_table总结 2
进行降维

import pandas as pd
from sklearn.decomposition import PCA

# 1、获取数据集
# ·商品信息- products.csv：
# Fields：product_id, product_name, aisle_id, department_id
# ·订单与商品信息- order_products__prior.csv：
# Fields：order_id, product_id, add_to_cart_order, reordered 
# ·用户的订单信息- orders.csv：
# Fields：order_id, user_id,eval_set, order_number,order_dow, order_hour_of_day, days_since_prior_order 
# ·商品所属具体物品类别- aisles.csv：
# Fields：aisle_id, aisle     
products = pd.read_csv("./instacart/products.csv")
order_products = pd.read_csv("./instacart/order_products__prior.csv")
orders = pd.read_csv("./instacart/orders.csv")
aisles = pd.read_csv("./instacart/aisles.csv")

# 2、合并表，将user_id和aisle放在一张表上
# 1）合并orders和order_products on=order_id tab1:order_id, product_id, user_id
tab1 = pd.merge(orders, order_products, on=["order_id", "order_id"])
# 2）合并tab1和products on=product_id tab2:aisle_id
tab2 = pd.merge(tab1, products, on=["product_id", "product_id"])
# 3）合并tab2和aisles on=aisle_id tab3:user_id, aisle
tab3 = pd.merge(tab2, aisles, on=["aisle_id", "aisle_id"])

# 3、交叉表处理，把user_id和aisle进行分组
table = pd.crosstab(tab3["user_id"], tab3["aisle"])

# 4、主成分分析的方法进行降维
# 1）实例化一个转换器类PCA
transfer = PCA(n_components=0.95)
# 2）fit_transform
data = transfer.fit_transform(table)

data.shape