pandas处理数据操作总结

对pandas封装的函数很不熟悉,在这里记录一下。

1.groupby()

  • 基本格式:DataFrame[‘数据处理序列’].groupby(键值).操作()。它的返回类型是一个dataframe,它的索引就是groupby的键值。如果没有后面的操作返回的就是一个<pandas.core.groupby.groupby.SeriesGroupBy object at 0x000000EA33F9B438>或者<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x000000EA33F9B438>,没有什么输出(但是一个可以迭代的对象,具体参照这里的1.2小节

在这里插入图片描述

  • 后面跟的操作类型,mean(),max()等等一般的操作;
  • 高级的操作:
  • 1.聚合(agg()),agg中的参数为一个函数,表示聚合方式
    在这里插入图片描述
    在这里插入图片描述
  • 2.transform(),参数也要跟一个函数,它传递的数量为原数据行数
    在这里插入图片描述

2.reset_index()

为dataframe从0开始重新设置索引,若跟参数drop=True,原索引会被删除,否则原索引成为了新的一列。(有时在agg()后用下它还可以生成dataframe)

3.pd.DataFrame()是可以用参数index,columns指定索引、列名。

4.pd.concat([],axis=1),dataframe的合并,[]中为dataframe,1表示横向合并。

5.DataFrame的遍历

  • for index,row in data.iterrows():然后就可以row[列名]取出值。

6.DataFrame写入文件

  • 设置index=False写入时不写入索引

7.dataframe与drop有关的操作。

  • 删除列:df.drop(columns=[],inplace=True)
  • 删除特定行:data=data[data[“count”]>=11].copy()或者df.drop(index=df[df.count>=11].index,inplace=True)

8.leave-one-out切分

数据只有user、item两列
在这里插入图片描述

9.随机负采样

在这里插入图片描述

10.df有index,columns,values属性

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值