工作总结-特征工程

最新推荐文章于 2022-03-09 09:40:37 发布

从菜鸟做起呀~

最新推荐文章于 2022-03-09 09:40:37 发布

阅读量183

点赞数 1

分类专栏：业务相关知识整理

本文链接：https://blog.csdn.net/june1122/article/details/84327502

版权

4 篇文章 0 订阅

订阅专栏

连续两周做特征工程

1、数据预处理，这是个相当麻烦的过程，尤其数据源给出的字段没有实际含义需要手动直接命名的时候。

注意点：

2、特征构建

3、特征分析

主要包括数据的查得率、特征的覆盖率、特征与label的相关性

遇到了数据量过大的问题，因为构造了不少one-hot特征，导致concat后文件很大。
在进行数据拼接时，首先选择concat拼接，比merge速度快，df = pd.concat([df1, df2], ignore_index=True) （可以保证数据拼接，且相同列名的放在一起，不同列名的补None）
使用feather来存储和读取dataframe文件，速度很快

import pyarrow.feather as feather

df = feather.write_dataframe('data-1023/pass-all-onlyclog-feature.fth', nthreads=20)

df = feather.read_dataframe('data/feature/card_feats_0729_1031.fth', nthreads=20)

4、特征选择

利用一系列的方法，相关性覆盖率等。也别选太狠，还可以通过调参嘛

一段代码只允许存在一个try语句！！

注意分析相关性和覆盖率靠前的特征是否可靠，相当于重新检查一遍构造特征的代码，若有错误，最好重新跑一遍特征工程，防止代码细节不相符。

5、模型训练

模型的选择考虑很多因素，目前一般采用树模型。

注意模型的保存格式，以及特征的格式等问题。

关注

专栏目录