六、数据(分组)计算

最新推荐文章于 2024-08-22 18:07:03 发布

数分小白龙

最新推荐文章于 2024-08-22 18:07:03 发布

阅读量1.1k

点赞数 1

分类专栏： Pandas知识点总结文章标签： python pandas

本文链接：https://blog.csdn.net/qq_38230663/article/details/116401203

版权

Pandas知识点总结专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1 常用统计函数：

df['xxx'].mean() # 均值
df.mean().mean() # 全体平均数
df[xxx'].median() # 中位数
df[xxx'].var() # 方差
df[xxx'].std() # 标准差
max(),min() # 最大(小)值

2 diff()函数：计算上下行差值：

# 方法一：Series.diff()
df['xxx'].diff()

# 方法二：shift(1)
diff = df['xxx'] - df['xxx'].shift(1)

3 pct_change()函数：计算上下行变化率：

# 方法一：Series.pct_change()
df['xxx'].pct_change()

# 方法二：shift(1)
df['xxx']/df['xxx'].shift(1) - 1

4 shft()函数：将数据往后(前)移动x天：

shift(x)
shift(-x)

5 rolling()函数：以5个数据作为滑动窗口，取均值/总和：

df['xxx'].rolling(5).mean()
df['xxx'].rolling(10).sum()

# 应用：将收盘价5日均线、20日均线与原始数据绘制再同一个图上

#方法一：
mean_5 = data['收盘价(元)'].rolling(5).mean()
mean_20 = data['收盘价(元)'].rolling(20).mean()

font = {'family':'MicroSoft YaHei', 'weight':'bold', 'size': 12}
matplotlib.rc('font', **font)

plt.rc('figure', figsize=(16,6), dpi=150) #设置图的大小
plt.plot(data['收盘价(元)'], label='原始数据')
plt.plot(mean_5, label='5日均线')
plt.plot(mean_20, label='20日均线')

plt.legend(loc='upper right')
plt.show()

#方法二：
data['收盘价(元)'].plot()
data['收盘价(元)'].rolling(5).mean().plot()
data['收盘价(元)'].rolling(20).mean().plot()

6 expanding()函数：

DataFrame.expanding(min_periods = 1，center = False，axis = 0)

# 计算某列的移动窗口均值：
df['xxx'].expanding(min_periods = 1).mean()

rolling()函数，是固定窗口大小，进行滑动计算，expanding()函数只设置最小的观测值数量，不固定窗口大小，实现累计计算，即不断扩展；

Pandas进阶之窗口函数rolling()和expanding()：https://www.jianshu.com/p/b8c795345e93

7 agg()函数：

（1）同时对xx1, xxx2两列进行计算：

df[['xxx1', 'xxx2']].agg([np.sum, np.mean, np.median, np.min, np.max, np.std, np.var])
df[['xxx1', 'xxx2']].agg(['sum', 'mean', 'median', 'min', 'max', 'std', 'var'])

（2）对'xxx1'列求平均，对'xxx2'列求和：

# 方法一：分开再汇总
salary_mean = df['salary'].mean()
score_sum = df['score'].sum()
salary_mean, score_sum

# 方法二：agg()函数
df.agg({'xxx1' : np.sum, 'xxx2' : np.mean})

8 分组计算：

（1）根据某列元素分组后计算平均值/中位数：

df.groupby('xxx').mean()
df.groupby('xxx').median()

（2）按'xxx1'分组后，'xxx2'列元素最多的是：

# 方法一：head()取行
df[['xxx1', 'xxx2']].groupby('xxx1').sum().sort_values(by='xxx2', ascending=False).head(1)

# 方法二：iloc取行
pd.DataFrame(df[['xxx1', 'xxx2']].groupby('xxx1').sum().sort_values(by='xxx2', ascending=False).iloc[0,:])

# 方法三：分组后采用agg函数求和
df[['xxx1', 'xxx2']].groupby('xxx1').agg({'xxx2':'sum'}).sort_values(by='xxx2', ascending=False).head(1)

（3）自定义函数修正日期：

def change_year(x):
    year = x.year - 100 if x.year > 1999 else x.year
    return datetime.date(year, x.month, x.day)

df['Yr_Mo_Dy'] = df['Yr_Mo_Dy'].apply(change_year).astype('datetime64[ns]')
df.head()

9 query()函数：df.query('month == 1')等同于df[df.month==1]

（1）计算一月份('month ==1')的平均值：

df['date'] = df.index

df['year'] = df['date'].apply(lambda x: x.year)
df['month'] = df['date'].apply(lambda x: x.month)
df['day'] = df['date'].apply(lambda x: x.day)

january_df = df.query('month==1')  #query等同于df[df.month==1]    
january_df.mean()