时间切片特征衍生

当无法使用数据库处理如‘近n个月金额之和/最大值/最小值/平均值’这类变量时,可以借助Python进行特征工程。本文介绍了如何在离线数据处理中,利用Python高效构造时间切片类的特征。
摘要由CSDN通过智能技术生成

在sql中比较容易处理类似“近n个月金额之和/最大值/最小值/平均值” 这样的变量,使用sum(case when date  then amount else 0 end) 即可,如果是出差在外只能处理离线数据不能使用数据库时,这个时候就要用python去构造时间切片类的特征。整理了自己之前写过的代码,往往都太笨拙和重复。

import pandas as pd
import numpy as np
import time as time
#生成实例数据集
data = pd.DataFrame({'id':['a','a','b','b','a'],
                    'billdate': ['2018-09-01','2018-08-01','2018-08-01','2018-01-01','2018-11-01'],
                    'amount':list(np.random.randint(1,100,5)),
                    'interest':np.random.rand(5),
                    'dt': ['2018-10-01','2018-10-01','2018-11-01','2018-11-01','2018-10-01']
                    })
data

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值