连续两周做特征工程
1、数据预处理,这是个相当麻烦的过程,尤其数据源给出的字段没有实际含义需要手动直接命名的时候。
注意点:
- 命名如果太多就别命了,血与泪的教训
- 处理json文件千万别把w写成r,同样是血与泪的教训
- 当返回值是list格式时,为了保存全部信息,首先要做one-hot,另外保留原始list的值(防止后边有人要补充特征)
- 在没有进行特征筛选前,能做的特征可以都做
- Python遍历字典不是按字典赋值顺序,而是按照计算机内部哈希顺序,想要按照顺序循环字典,需要利用函数
from collections import OrderedDictdict = OrderedDict([('a':3), ('b':2)]) - try语法不要轻易用,会忽视掉某些字段出现的异常
- 字典update为空时会报错,需要提前判断
- 日期特征时需要注意构造特征的正确性,比如说拿当前时间做减法,或者2011年至今的特征,由于是累计值,会使特征变化大。后期对模型的准确性造成很大的影响
- 取最大值的索引时,需要考虑会不会同时有好几个位置最大。
2、特征构建
- 需要根据实际意义,要保证特征的可靠性
- 2011年至今的数据,是累计值,需要拿现在年份减去2011年求平均
- 时间特征谨慎使用,当前时间不确定是否一致
- 尽可能保存原始特征。
3、特征分析
主要包括数据的查得率、特征的覆盖率、特征与label的相关性
- 遇到了数据量过大的问题,因为构造了不少one-hot特征,导致concat后文件很大。
- 在进行数据拼接时,首先选择concat拼接,比merge速度快,df = pd.concat([df1, df2], ignore_index=True) (可以保证数据拼接,且相同列名的放在一起,不同列名的补None)
- 使用feather来存储和读取dataframe文件,速度很快
import pyarrow.feather as feather
df = feather.write_dataframe('data-1023/pass-all-onlyclog-feature.fth', nthreads=20)
df = feather.read_dataframe('data/feature/card_feats_0729_1031.fth', nthreads=20)
4、特征选择
利用一系列的方法,相关性覆盖率等。也别选太狠,还可以通过调参嘛
一段代码只允许存在一个try语句!!
注意分析相关性和覆盖率靠前的特征是否可靠,相当于重新检查一遍构造特征的代码,若有错误,最好重新跑一遍特征工程,防止代码细节不相符。
5、模型训练
模型的选择考虑很多因素,目前一般采用树模型。
注意模型的保存格式,以及特征的格式等问题。


被折叠的 条评论
为什么被折叠?



