查看相关性
方法一:
#df.to_csv('data1.csv') import matplotlib.pyplot as plt import seaborn as sns #变量相关性分析 fig,ax = plt.subplots() fig.set_size_inches(10,10) sns.heatmap(df.corr(),annot=True,cmap='rainbow',ax=ax) plt.xticks(rotation=90) plt.show() |
方法二:
#检查样本特征相关性有无多重相似特征,去除多重相关性特征(保留一列) #特征之间的相关性, 计算数据的相关性 #先读入数据
import numpy as np cor = df.corr() cor.iloc[:,:] = np.tril(cor,k =-1) cor = cor.stack() print(cor[(cor>0.55) | (cor<-0.55) ]) print(cor) |