工作总结-特征工程

连续两周做特征工程

1、数据预处理,这是个相当麻烦的过程,尤其数据源给出的字段没有实际含义需要手动直接命名的时候。

注意点:

  • 命名如果太多就别命了,血与泪的教训
  • 处理json文件千万别把w写成r,同样是血与泪的教训
  • 当返回值是list格式时,为了保存全部信息,首先要做one-hot,另外保留原始list的值(防止后边有人要补充特征)
  • 在没有进行特征筛选前,能做的特征可以都做
  • Python遍历字典不是按字典赋值顺序,而是按照计算机内部哈希顺序,想要按照顺序循环字典,需要利用函数
    from collections import OrderedDict
    dict = OrderedDict([('a':3), ('b':2)])
  • try语法不要轻易用,会忽视掉某些字段出现的异常
  • 字典update为空时会报错,需要提前判断
  • 日期特征时需要注意构造特征的正确性,比如说拿当前时间做减法,或者2011年至今的特征,由于是累计值,会使特征变化大。后期对模型的准确性造成很大的影响
  • 取最大值的索引时,需要考虑会不会同时有好几个位置最大。

2、特征构建

  • 需要根据实际意义,要保证特征的可靠性
  • 2011年至今的数据,是累计值,需要拿现在年份减去2011年求平均
  • 时间特征谨慎使用,当前时间不确定是否一致
  • 尽可能保存原始特征。

3、特征分析

主要包括数据的查得率、特征的覆盖率、特征与label的相关性

  • 遇到了数据量过大的问题,因为构造了不少one-hot特征,导致concat后文件很大。
  • 在进行数据拼接时,首先选择concat拼接,比merge速度快,df = pd.concat([df1, df2], ignore_index=True) (可以保证数据拼接,且相同列名的放在一起,不同列名的补None)
  • 使用feather来存储和读取dataframe文件,速度很快     

import pyarrow.feather as feather   

df = feather.write_dataframe('data-1023/pass-all-onlyclog-feature.fth', nthreads=20)   

df = feather.read_dataframe('data/feature/card_feats_0729_1031.fth', nthreads=20) 

4、特征选择

利用一系列的方法,相关性覆盖率等。也别选太狠,还可以通过调参嘛

一段代码只允许存在一个try语句!!

注意分析相关性和覆盖率靠前的特征是否可靠,相当于重新检查一遍构造特征的代码,若有错误,最好重新跑一遍特征工程,防止代码细节不相符。

5、模型训练

模型的选择考虑很多因素,目前一般采用树模型。

注意模型的保存格式,以及特征的格式等问题。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值