数据可视化基础
以数据集Iris为例——Iris数据集是一个有关花的数据集,涉及花的四个特征,分别是花萼的长和宽,花瓣的长和宽
1.引入第三方库
#引入第三方库
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from pandas import DataFrame
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
2. 导入数据集
#导入Iris数据集
iris = load_iris()
3. 数据格式整理
#定义变量 赋值
iris_data = iris.data
feature_names = iris.feature_names
iris_target = iris.target
#格式整理
iris_target.shape = (150,1)
iris_all = np.hstack((iris_data,iris_target))
#转化为DataFrame格式
iris_data_df = DataFrame(iris_data,columns=feature_names)
iris_target_df = DataFrame(iris_target,columns=['target'])
iris_data_all_df = DataFrame(iris_all,columns=feature_names+['target'])
4. 数据可视化
4.1 查看四个特征数据的范围
#箱线图
sns.boxenplot(data=iris_data_df)
plt.show()
4.2 数据总览
#折线图
plt.plot(iris_data_df)
plt.legend(feature_names)
plt.show()
4.3 选取部分数据作图
sepal_data_df = iris_data_df[['sepal length (cm)','sepal width (cm)']]
plt.plot(sepal_data_df)
plt.legend(['sepal length (cm)','sepal width (cm)'])
plt.title('sepal data')
plt.show()
4.4 其他图表
sns.pairplot(iris_data_all_df,vars=iris_data_all_df.columns[:4],hue='target',size=3,kind="reg")
plt.show()