02-Pandas的方法介绍

最新推荐文章于 2024-09-15 22:31:42 发布

饮尽夏日

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量408

点赞数 4

分类专栏： pandas 文章标签： pandas python leetcode

本文链接：https://blog.csdn.net/CrazySummerdrink/article/details/136951225

版权

pandas 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

pd.DateOffset是pandas库中的一个类，用于表示日历日期之间的偏移量。
```
start_date = end_date - pd.DateOffset(days=30)
```
.nunique()方法用于获取Series或Dataframe中唯一值的数量。
```
...省略前面...  .groupby('activity_date')['user_id'].nunique()
```
此方法应用于Series时，方法返回唯一值的数量。
应用于DataFrame时，方法默认返回每一列中唯一值的数量，如果想要获取整个Dataframe中所有唯一值的数量，需要额外指定axis=0。想要获取每一行中唯一值的数量，需要指定axis=1。
此方法还有一个dropna参数，默认为True。当dropna=True时，计算唯一值时排除Null值。
drop是Dataframe和Series对象的一个方法，用于删除行或列
```
DataFrame.drop(labels=None, axis=0, level=None, inplace=False, errors='raise')  
Series.drop(labels=None, axis=0, level=None, inplace=False, errors='raise')
```
labels指要删除的标签或标签列表，对于dataframe来说是行标签（行索引）或列标签（列名），对于Series来说它只能索引。
axis为0或index时表示按行删除，1或columns表示按列删除。默认为0.
level指定从哪个索引级别删除标签
errors指定如何处理找不到的标签，raise表示找不到就抛出错误，ignore表示忽略。默认为raise。
.rank()函数是用于Series的方法，用于给序列中的每个值分配一个排名
```
scores['rank'] = scores['score'].rank(method='dense', ascending=False)
```
method='dense'意味着排名是连续的，没有间隔。
.to_frame()方法通常用于将一个 Series对象转换为一个单列的DataFrmae对象
```
return result.to_frame(name='ConsecutiveNums')
```
.transform()，对DataFrame或Series的分组使用指定的函数
```
df['D_mean'] = df.groupby(['A', 'B'])['D'].transform('mean') 
```
以(A, B)组合分组，在D列上进行操作，会在df上多一个名为D_mean的新列。
.filter()方法通常用于过滤
```
valid_dates = df.groupby('diff').filter(lambda group: len(group) >= 3)['diff'].unique()
```
对于DataFrame,此方法用于基于列标签的筛选,它接受一个正则表达式过着列标签作为参数,返回值是Dataframe.(也可以基于行标签筛选)

.concat()方法用于连接多个Series或Dataframe

df = pd.concat([request_accepted[['requester_id']].rename(columns={'requester_id':'id'}),
request_accepted[['accepter_id']].rename(columns={'accepter_id':'id'})], ignore_index=True)