数据可视化
数据可视化是最快最有效的方式理解数据
主要是是直方图,密度图,箱线图
代码非常简单,前面都是导入类库,读取文件,后面就是数据可视化方式选择,最后是显示
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler
filename = 'D:\data\pima-indians-diabetes.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data=read_csv(filename,names=names)
data.hist()
plt.show()
前面的代码都一样,后面的可视化方式选择不一样,显示效果也不一样,下面是密度图
data.plot(kind='density',subplots=True,layout=(3,3),sharex=False)
plt.show()
箱线图
data.plot(kind='box',subplots=True,layout=(3,3),sharex=False)
plt.show()
散点矩阵图
scatter_matrix(data)
plt.show()
相关矩阵图