python pandas数据分析入门

python pandas数据分析入门

求和、求平均 统计引导
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_excel('文件目录',index_col='ID')
temp = df[['Chinese','English','Math']]
# 默认从上到下进行求和 修改为从左到右
df['Total'] = temp.sum(axis=1)
# 从左到右的平均值
df['Average'] = temp.mean(axis=1)
# 汇总成绩
col_mean = df[['Chinese','English','Math','Chinese','English','Math']].mean()
# 把数据某个数据成summary
col_mean['Name'] 'Summary'
# 把数据加进去
df = df.append(col_mean,ignore_index=True)
相关性分析
import pandas as pd
import matplotlib.pyplot as plt
# 显现所有(20)列
pd.options.display.max_columns = 20
df = pd.read_excel('文件目录')
# 两两之间的相关性分析
df.corr()
# 输出为一个矩阵 行与列之间的相关性,数据越大,相关性越高
print(df.corr())
线性回归与预测
import pandas as pd
import matplotlib.pyplot as plt
from scipy.stats import linregress
# 默认当成字符串进行读取
df = pd.read_excel('文件目录',dtype={‘Month’:str})
# 斜率、截距、r、p、标准差 有用的是斜率、截距
slope,intercept,r,p,std_err = linregress(df.index,df.Revenue)
# 得到期望值
exp = df.index*slope + intercept

# 横轴是index,自动生成的
plt.scatter(df.index,df.Revenue)
# 加上图形
plt.plot(df.index,exp,color='orange')
plt.title("Sales")
plt.xticks(df.index,df.Month,rotation=90)
plt.tight_layout()
plt.show()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值