注:本人目前知识水平有限,仅代表个人经验的总结,若有补充或建议欢迎评论
一、特征的初步筛选
1.根据业务知识筛除与目标特征无关特征
2.统计各个特征样本缺失占比,遵循二八原则,超过80%则筛除。
3.某离散特征下,其某一个值占比过高(超过90%),则可视为准常量特征而进行筛除。
二、各特征转数值型特征
由于大部分模型的特征输入需要定量特征,因此常常需要先将各特征转化为数值型特征
注:本人目前知识水平有限,仅代表个人经验的总结,若有补充或建议欢迎评论
由于大部分模型的特征输入需要定量特征,因此常常需要先将各特征转化为数值型特征