特征工程常用的函数及使用方法

近期参加了天池的数据可视化比赛,我在队伍中担当的是特征工程和后端,虽然在最后后端部署到服务器上的时候我不会,但是,这次比赛也让我学到了许多东西,下面我来总结一下我做特征工程常用的方法
第一个最简单的读写文件,pandas库里面有许多读写文件的函数,支持的文件类型也有很多,常见的csv,excel,sql等,
第二个,最常用的分组函数groupby,许多功能都要基于这个函数,而且后面也可跟许多函数

data2 = pd.read_csv('../data/5_chengji.csv').copy(deep=False)
data4 = data2[data2['mes_Score']>=2].groupby(by=['exam_numname','mes_StudentID'])['mes_Score'].sum()
data3 = data4.reset_index()

上面代码中后面跟的是sum(),类似聚合函数mean(),min(),max(),avg(),count()等都可以跟,reset_index()方法是去掉索引,相对应的set_index()是创建索引,参数是传columns中的一个labels名。
第三个就是apply函数,这个也是常跟在groupby后面

import math
def full_score(s):
    if 0<s<=15: #满分15分
        return 15
    if 80<s<=100:#满分100分
        return 100
    elif 100<s<=120: #满分120分
        return 120
    elif 120<s<=150: #满分150分
        return 150
    else:   #其他情况向上取整,如最高分68分,则定义满分为70分
        return math.ceil(s/10)*10
    
full_score_t=data2.groupby(['exam_number','mes_sub_id'])['mes_sub_name','mes_Score'].max().reset_index()
full_score_t['full_score']=full_score_t['mes_Score'].apply(full_score)

apply方法传入的是一个自定义函数,这个函

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值