Pandas常用技巧总结

最新推荐文章于 2024-08-29 17:25:42 发布

Labryant

最新推荐文章于 2024-08-29 17:25:42 发布

阅读量478

点赞数

分类专栏：风控

本文链接：https://blog.csdn.net/lc434699300/article/details/106537816

版权

本文汇总了工作中常用的Pandas技巧，包括计算变量缺失率、分组取最大值、多列合并、删除特定字符串行、组内排序、选择特定列、字符串转数值、优化内存占用、筛选最大类别、字符串拆分、列表转DataFrame、多函数聚合及分组聚合等，旨在提升数据分析效率。

摘要由CSDN通过智能技术生成

归纳整理了一些工作中常用到的pandas使用技巧，方便更高效地实现数据分析。

1.计算变量缺失率

df=pd.read_csv('titanic_train.csv')
def missing_cal(df):
    """
    df :数据集
    
    return：每个变量的缺失率
    """
    missing_series = df.isnull().sum()/df.shape[0]
    missing_df = pd.DataFrame(missing_series).reset_index()
    missing_df = missing_df.rename(columns={
   'index':'col',
                                            0:'missing_pct'})
    missing_df = missing_df.sort_values('missing_pct',ascending=False).reset_index(drop=True)
    return missing_df
missing_cal(df)

如果需要计算样本的缺失率分布，只要加上参数axis=1.

2.获取分组里最大值所在的行方法

分为分组中有重复值和无重复值两种。

无重复值的情况。

df = pd.DataFrame({
   'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6], 'Count':[3,2,5,10,10,6]})
df

df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())]

先按Mt列进行分组，然后对分组之后的数据框使用idxmax函数取出Count最大值所在的列，再用iloc位置索引将行取出。

有重复值的情况

df["rank"] = df.groupby("ID")["score"].rank(method="min"

最低0.47元/天解锁文章

Labryant

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Pandas常用技巧总结

归纳整理了一些工作中常用到的pandas使用技巧，方便更高效地实现数据分析。1.计算变量缺失率df=pd.read_csv('titanic_train.csv')def missing_cal(df): """ df :数据集 return：每个变量的缺失率 """ missing_series = df.isnull().sum()/df.shape[0] missing_df = pd.DataFrame(missing_series..
复制链接

扫一扫