1 特征降维
1.1 降维
1.2 降维的两种方式
1.3 什么是特征选择
1.3.1 特征选择
1.3.2 实现方法
1.3.3 过滤式
定义
实现API
代码实现
from sklearn.feature_selection import VarianceThreshold
import pandas as pd
def minmax_demo():
"""
过滤低方差值
:return:
"""
#1 获取数据
data=pd.read_csv("data.csv")
data=data.iloc[:,:3]
#print("data:\n",data)
#2 实例化转换器 threshold方差值设定
transfer=VarianceThreshold(threshold=10)
#3 调用fit_transform
data_new=transfer.fit_transform(data)
print("data_new:\n",data_new,data_new.shape)
if __name__ == '__main__':
minmax_demo()
1.3.4 相关系数
公式
举例
特点
实现API
代码实现
from scipy.stats import pearsonr
import pandas as pd
def pearsonr_demo():
"""
计算两个变量间的相关系数
:return:
"""
#1 获取数据
data=pd.read_csv("data.csv")
data=data.iloc[:,:3]
# 计算两个变量间的相关系数
r=pearsonr(data['a'],data['c'])
print("相关系数:\n",r)
if __name__ == '__main__':
pearsonr_demo()
小结
特征与特征之间相关性很高:
1)选取其中一个 2)加权求和 3)主成分分析
1.4 主成分分析
1.4.1 什么是主成分分析(PCA)
1.4.2 计算案例理解
1.4.3 实现API
1.4.4 代码实现
from sklearn.decomposition import PCA
def pca_demo():
"""
PCA 降维
:return:
"""
data=[[2,8,4,5],[6,4,0,9],[2,3,4,1]]
# 1、实例化一个转换器
transfer=PCA(n_components=2)
# 2、调用fit_transform
data_new=transfer.fit_transform(data)
print("data_new:\n",data_new)
if __name__ == '__main__':
pca_demo()