python panda apply_Pandas的Apply函数具体使用

Pandas最好用的函数

Pandas是Python语言中非常好用的一种数据结构包,包含了许多有用的数据操作方法。而且很多算法相关的库函数的输入数据结构都要求是pandas数据,或者有该数据的接口。

仔细看pandas的API说明文档,就会发现有好多有用的函数,比如非常常用的文件的读写函数就包括如下函数:

读取数据后,对于数据处理来说,有好多有用的相关操作的函数,但是我认为其中最好用的函数是下面这个函数:

apply函数

apply函数是`pandas`里面所有函数中自由度最高的函数。该函数如下:

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

该函数最有用的是第一个参数,这个参数是函数,相当于C/C++的函数指针。

这个函数需要自己实现,函数的传入参数根据axis来定,比如axis = 1,就会把一行数据作为Series的数据结构传入给自己实现的函数中,我们在函数中实现对Series不同属性之间的计算,返回一个结果,则apply函数会自动遍历每一行DataFrame的数据,最后将所有结果组合成一个Series数据结构并返回。

比如读取一个表格:

0c1dbe17f1901c83ec15ff7ba3f981e4.png

假如我们想要得到表格中的PublishedTime和ReceivedTime属性之间的时间差数据,就可以使用下面的函数来实现:

import pandas as pd

import datetime #用来计算日期差的包

def dataInterval(data1,data2):

d1 = datetime.datetime.strptime(data1, '%Y-%m-%d')

d2 = datetime.datetime.strptime(data2, '%Y-%m-%d')

delta = d1 - d2

return delta.days

def getInterval(arrLike): #用来计算日期间隔天数的调用的函数

PublishedTime = arrLike['PublishedTime']

ReceivedTime = arrLike['ReceivedTime']

# print(PublishedTime.strip(),ReceivedTime.strip())

days = dataInterval(PublishedTime.strip(),ReceivedTime.strip()) #注意去掉两端空白

return days

if __name__ == '__main__':

fileName = "NS_new.xls";

df = pd.read_excel(fileName)

df['TimeInterval'] = df.apply(getInterval , axis = 1)

有时候,我们想给自己实现的函数传递参数,就可以用的apply函数的*args和**kwds参数,比如同样的时间差函数,我希望自己传递时间差的标签,这样没次标签更改就不用修改自己实现的函数了,实现代码如下:

import pandas as pd

import datetime #用来计算日期差的包

def dataInterval(data1,data2):

d1 = datetime.datetime.strptime(data1, '%Y-%m-%d')

d2 = datetime.datetime.strptime(data2, '%Y-%m-%d')

delta = d1 - d2

return delta.days

def getInterval_new(arrLike,before,after): #用来计算日期间隔天数的调用的函数

before = arrLike[before]

after = arrLike[after]

# print(PublishedTime.strip(),ReceivedTime.strip())

days = dataInterval(after.strip(),before.strip()) #注意去掉两端空白

return days

if __name__ == '__main__':

fileName = "NS_new.xls";

df = pd.read_excel(fileName)

df['TimeInterval'] = df.apply(getInterval_new ,

axis = 1, args = ('ReceivedTime','PublishedTime')) #调用方式一

#下面的调用方式等价于上面的调用方式

df['TimeInterval'] = df.apply(getInterval_new ,

axis = 1, **{'before':'ReceivedTime','after':'PublishedTime'}) #调用方式二

#下面的调用方式等价于上面的调用方式

df['TimeInterval'] = df.apply(getInterval_new ,

axis = 1, before='ReceivedTime',after='PublishedTime') #调用方式三

修改后的getInterval_new函数多了两个参数,这样我们在使用apply函数的时候要自己传递参数,代码中显示的三种传递方式都行。

最后,本篇的全部代码在下面这个网页可以下载:

到此这篇关于Pandas的Apply函数具体使用的文章就介绍到这了,更多相关Pandas Apply函数内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值