数据分析python传统模型_【数据分析】基于Python对数据做模型分析

1、准备工作

这里用到pandas和numpy库

import pandas as pd

import numpy as np

引入自带的数据集合

df = pd.resd_csv(“/resources/jupyter/DA001/DA001-003/clean_df.csv”)

df.head()#查看前5行

输出:9fdf75f1150873a03eee8aa53f8f6ba6.png

将个体特征模式可视化

#先引入包

!pip install seaborn

#导入可视化库matplotlib和seborn

import matplotlib.pyplot as plt

import seaborn as sns

%matplotlib inline

#查询数据的类型以便于下一步

df.dtypes

输出:f026da3999f690a09e4fbe757d4b599b.png

选择查看其中一列的数据类型:

print(df["stroke"].dtypes)

输出 float64

2、计算其中几项的相关性

函数corr()

df[["bore", "stroke", "compression", "horsepower"]].corr()

输出:06db2524070b3d2b96c46754b7351ab9.png可以画散点图观察连续数值变量之间是否有正负相关、或者弱相关的关系。调用函数regplot()

sns.regplot(x = "engine_size", y = "price" ,data = df)

plt.ylim(0,)

562d6f76ec0505cfe4cf5f6962ee9d89.png至于为什么要加ylim函数,可以从这篇博客里面x = np.linspace、plt.xlim和xticks的区别

通过不同函数得到不同函数的图像表达效果。

总结如下

函数

效果

x

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值