1、准备工作
这里用到pandas和numpy库
import pandas as pd
import numpy as np
引入自带的数据集合
df = pd.resd_csv(“/resources/jupyter/DA001/DA001-003/clean_df.csv”)
df.head()#查看前5行
输出:
将个体特征模式可视化
#先引入包
!pip install seaborn
#导入可视化库matplotlib和seborn
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
#查询数据的类型以便于下一步
df.dtypes
输出:
选择查看其中一列的数据类型:
print(df["stroke"].dtypes)
输出 float64
2、计算其中几项的相关性
函数corr()
df[["bore", "stroke", "compression", "horsepower"]].corr()
输出:可以画散点图观察连续数值变量之间是否有正负相关、或者弱相关的关系。调用函数regplot()
sns.regplot(x = "engine_size", y = "price" ,data = df)
plt.ylim(0,)
至于为什么要加ylim函数,可以从这篇博客里面x = np.linspace、plt.xlim和xticks的区别
通过不同函数得到不同函数的图像表达效果。
总结如下
函数
效果
x