机器学习笔记:特征处理常用pandas

最近在处理机器学习时,发现相较于模型训练,更多的是处理数据特征,数据合成在不增加信息量的情况下增加了信息质量,可能更适用机器学习训练。

一、常用的数据处理其实都是以下两个需求的变形(实在不行手动计算)

1、滑动计算

# 方式1:
data['pre'] = data['now'].shift(1)
data['pre'] = data['now'].shift(-1)

# shift(1)表示向下滑动

# 得到的数据第一个为nan,后面为每行向下滑动(第一行数据滑动至第二行,以此类推)

data['pre'] = data['now'].rolling(100).sum()

# 每个向前计算累加(也可以mean、max等)

2、删除none值(numpy也有相同调用方法)

data.dropna(inplace=True)

二、将数值数据变为二分类数据

for i in data['per']:
    if abs(i) > 1:
        a = 0
    else:
        a = 1
    data0.append(a)

 三、GROUP BUY 处理分组相加问题

data.groupby('id')

  四、pandas丢弃最后一行

 df1 = df.drop(index=218591)

# 这里的行数是自己设置的,可以len一下获取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值