第十六章 pandas官方文档0.22中文教程---Tutorials（lessons 6 lessons 7），个人渣翻译

最新推荐文章于 2024-04-24 12:01:09 发布

dark_tone

最新推荐文章于 2024-04-24 12:01:09 发布

阅读量270

点赞数

分类专栏： win32股票统计程序开发文章标签： pandas

本文链接：https://blog.csdn.net/dark_tone/article/details/80380525

版权

win32股票统计程序开发专栏收录该内容

19 篇文章 7 订阅

订阅专栏

这里写图片描述
#####Lesson6 分组函数

import pandas as pd

# Our small data set
d = {'one':[1,1,1,1,1],
     'two':[2,2,2,2,2],
     'letter':['a','a','b','b','c']}

# Create dataframe
df = pd.DataFrame(d)
df

这里写图片描述

# Create group object
one = df.groupby('letter')

# Apply sum function
one.sum()

这里写图片描述

letterone = df.groupby(['letter','one']).sum()
letterone

这里写图片描述

letterone.index

这里写图片描述
您可能希望不要将您所分组的列变成索引，这很容易实现如下所示

letterone = df.groupby(['letter','one'], as_index=False).sum()
letterone

(通过参数as_index=False，可以不改变原始df的结构，也能完成分组统计)
这里写图片描述

letterone.index

这里写图片描述

#####Lessons 7 计算离群值

# Create a dataframe with dates as your index
States = ['NY', 'NY', 'NY', 'NY', 'FL', 'FL', 'GA', 'GA', 'FL', 'FL'] 
data = [1.0, 2, 3, 4, 5, 6, 7, 8, 9, 10]
idx = pd.date_range('1/1/2012', periods=10, freq='MS')
df1 = pd.DataFrame(data, index=idx, columns=['Revenue'])
df1['State'] = States

# Create a second dataframe
data2 = [10.0, 10.0, 9, 9, 8, 8, 7, 7, 6, 6]
idx2 = pd.date_range('1/1/2013', periods=10, freq='MS')
df2 = pd.DataFrame(data2, index=idx2, columns=['Revenue'])
df2['State'] = States

# Combine dataframes
df = pd.concat([df1,df2])
df

这里写图片描述
注意:平均值和标准差只适用于高斯分布

# Method 1

# make a copy of original df
newdf = df.copy()

newdf['x-Mean'] = abs(newdf['Revenue'] - newdf['Revenue'].mean())
newdf['1.96*std'] = 1.96*newdf['Revenue'].std()  
newdf['Outlier'] = abs(newdf['Revenue'] - newdf['Revenue'].mean()) > 1.96*newdf['Revenue'].std()
newdf

这里写图片描述

# Method 2
# Group by item

# make a copy of original df
newdf = df.copy()

State = newdf.groupby('State')

newdf['Outlier'] = State.transform( lambda x: abs(x-x.mean()) > 1.96*x.std() )
newdf['x-Mean'] = State.transform( lambda x: abs(x-x.mean()) )
newdf['1.96*std'] = State.transform( lambda x: 1.96*x.std() )
newdf

这里写图片描述

# Method 3
# Group by item

# make a copy of original df
newdf = df.copy()

State = newdf.groupby('State')

def s(group):
    group['x-Mean'] = abs(group['Revenue'] - group['Revenue'].mean())
    group['1.96*std'] = 1.96*group['Revenue'].std()  
    group['Outlier'] = abs(group['Revenue'] - group['Revenue'].mean()) > 1.96*group['Revenue'].std()
    return group

Newdf2 = State.apply(s)
Newdf2

这里写图片描述

# make a copy of original df
newdf = df.copy()

State = newdf.groupby('State')

newdf['Lower'] = State['Revenue'].transform( lambda x: x.quantile(q=.25) - (1.5*(x.quantile(q=.75)-x.quantile(q=.25))) )
newdf['Upper'] = State['Revenue'].transform( lambda x: x.quantile(q=.75) + (1.5*(x.quantile(q=.75)-x.quantile(q=.25))) )
newdf['Outlier'] = (newdf['Revenue'] < newdf['Lower']) | (newdf['Revenue'] > newdf['Upper']) 
newdf

这里写图片描述

dark_tone

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第十六章 pandas官方文档0.22中文教程---Tutorials（lessons 6 lessons 7），个人渣翻译

Lesson6 分组函数import pandas as pd# Our small data setd = {'one':[1,1,1,1,1], 'two':[2,2,2,2,2], 'letter':['a','a','b','b','c']}# Create dataframedf = pd.DataFrame(d)df# Create...
复制链接

扫一扫

专栏目录