-
pd.DateOffset
是pandas
库中的一个类,用于表示日历日期之间的偏移量。start_date = end_date - pd.DateOffset(days=30)
-
.nunique()
方法用于获取Series
或Dataframe
中唯一值的数量。...省略前面... .groupby('activity_date')['user_id'].nunique()
此方法应用于
Series
时,方法返回唯一值的数量。
应用于DataFrame
时,方法默认返回每一列中唯一值的数量,如果想要获取整个Dataframe
中所有唯一值的数量,需要额外指定axis=0
。想要获取每一行中唯一值的数量,需要指定axis=1
。
此方法还有一个dropna
参数,默认为True
。当dropna=True
时,计算唯一值时排除Null
值。 -
drop
是Dataframe
和Series
对象的一个方法,用于删除行或列DataFrame.drop(labels=None, axis=0, level=None, inplace=False, errors='raise') Series.drop(labels=None, axis=0, level=None, inplace=False, errors='raise')
labels
指要删除的标签或标签列表,对于dataframe
来说是行标签(行索引)或列标签(列名),对于Series
来说它只能索引。
axis
为0
或index
时表示按行删除,1
或columns
表示按列删除。默认为0.
level
指定从哪个索引级别删除标签
errors
指定如何处理找不到的标签,raise
表示找不到就抛出错误,ignore
表示忽略。默认为raise
。 -
.rank()
函数是用于Series
的方法,用于给序列中的每个值分配一个排名scores['rank'] = scores['score'].rank(method='dense', ascending=False)
method='dense'
意味着排名是连续的,没有间隔。 -
.to_frame()
方法通常用于将一个Series
对象转换为一个单列的DataFrmae
对象return result.to_frame(name='ConsecutiveNums')
-
.transform()
,对DataFrame
或Series
的分组使用指定的函数df['D_mean'] = df.groupby(['A', 'B'])['D'].transform('mean')
以
(A, B)
组合分组,在D
列上进行操作,会在df
上多一个名为D_mean
的新列。 -
.filter()
方法通常用于过滤valid_dates = df.groupby('diff').filter(lambda group: len(group) >= 3)['diff'].unique()
对于
DataFrame
,此方法用于基于列标签的筛选,它接受一个正则表达式过着列标签作为参数,返回值是Dataframe
.(也可以基于行标签筛选) -
.concat()
方法用于连接多个Series
或Dataframe
df = pd.concat([request_accepted[['requester_id']].rename(columns={'requester_id':'id'}), request_accepted[['accepter_id']].rename(columns={'accepter_id':'id'})], ignore_index=True)
-
fillna()
方法用于将指定内容中的空值填为0result['count'] = result['count'].fillna(0)
注意:
fillna()
方法不会修改原始数据中的NaN
值,而是返回一个新的Series
或DataFrame
02-Pandas的方法介绍
最新推荐文章于 2024-09-15 22:31:42 发布