Python数据处理——数据可视化(一)

数据可视化基础

以数据集Iris为例——Iris数据集是一个有关花的数据集,涉及花的四个特征,分别是花萼的长和宽,花瓣的长和宽

1.引入第三方库

#引入第三方库
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from pandas import DataFrame
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

2. 导入数据集

#导入Iris数据集
iris = load_iris()

3. 数据格式整理

#定义变量 赋值
iris_data = iris.data
feature_names = iris.feature_names
iris_target = iris.target
#格式整理
iris_target.shape = (150,1)
iris_all = np.hstack((iris_data,iris_target))
#转化为DataFrame格式
iris_data_df = DataFrame(iris_data,columns=feature_names)
iris_target_df = DataFrame(iris_target,columns=['target'])
iris_data_all_df = DataFrame(iris_all,columns=feature_names+['target'])

4. 数据可视化

4.1 查看四个特征数据的范围

#箱线图
sns.boxenplot(data=iris_data_df)
plt.show()

4.2 数据总览

#折线图
plt.plot(iris_data_df)
plt.legend(feature_names)
plt.show()

4.3 选取部分数据作图

sepal_data_df = iris_data_df[['sepal length (cm)','sepal width (cm)']]
plt.plot(sepal_data_df)
plt.legend(['sepal length (cm)','sepal width (cm)'])
plt.title('sepal data')
plt.show()

4.4 其他图表

sns.pairplot(iris_data_all_df,vars=iris_data_all_df.columns[:4],hue='target',size=3,kind="reg")
plt.show()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值