特征工程常用的函数及使用方法

最新推荐文章于 2024-06-10 12:45:19 发布

pyswt

最新推荐文章于 2024-06-10 12:45:19 发布

阅读量561

点赞数

分类专栏：机器学习算法文章标签： python 特征工程

本文链接：https://blog.csdn.net/python3_i_know/article/details/90168111

版权

近期参加了天池的数据可视化比赛，我在队伍中担当的是特征工程和后端，虽然在最后后端部署到服务器上的时候我不会，但是，这次比赛也让我学到了许多东西，下面我来总结一下我做特征工程常用的方法
第一个最简单的读写文件，pandas库里面有许多读写文件的函数，支持的文件类型也有很多，常见的csv，excel，sql等，
第二个，最常用的分组函数groupby，许多功能都要基于这个函数，而且后面也可跟许多函数

data2 = pd.read_csv('../data/5_chengji.csv').copy(deep=False)
data4 = data2[data2['mes_Score']>=2].groupby(by=['exam_numname','mes_StudentID'])['mes_Score'].sum()
data3 = data4.reset_index()

上面代码中后面跟的是sum()，类似聚合函数mean(),min(),max(),avg(),count()等都可以跟，reset_index()方法是去掉索引，相对应的set_index()是创建索引，参数是传columns中的一个labels名。
第三个就是apply函数，这个也是常跟在groupby后面

import math
def full_score(s):
    if 0<s<=15: #满分15分
        return 15
    if 80<s<=100:#满分100分
        return 100
    elif 100<s<=120: #满分120分
        return 120
    elif 120<s<=150: #满分150分
        return 150
    else:   #其他情况向上取整，如最高分68分，则定义满分为70分
        return math.ceil(s/10)*10
    
full_score_t=data2.groupby(['exam_number','mes_sub_id'])['mes_sub_name','mes_Score'].max().reset_index()
full_score_t['full_score']=full_score_t['mes_Score'].apply(full_score)

apply方法传入的是一个自定义函数，这个函

最低0.47元/天解锁文章

pyswt

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
特征工程常用的函数及使用方法

近期参加了天池的数据可视化比赛，我在队伍中担当的是特征工程和后端，虽然但最后后端部署到服务器上的时候我不会，但是，这次比赛也让我学到了许多东西，下面我来总结一下我做特征工程常用的方法第一个最简单的读写文件，pandas库里面有许多读写文件的函数，支持的文件类型也有很多，常见的csv，excel，sql等，第二个，最常用的分组函数groupby，许多功能都要基于这个函数，而且后面也可跟许多函数...
复制链接

扫一扫