数据挖掘实践(资金流入流出预测)–Task04:特征工程
赛题解读
赛题介绍:https://tianchi.aliyun.com/competition/entrance/231573/introduction
数据集介绍及下载:https://tianchi.aliyun.com/competition/entrance/231573/information
阅读完赛题介绍后,总结了一下这个赛题的目的就是预测未来一个月,每天余额宝总的的转入金额和转出金额。是一个回归问题。
数据挖掘“二八原则“
80%的精力 => 选取特征
20%的精力 => 模型融合等
特征工程
基于数据分析与探索提取潜在有价值的特征
离散型特征很重要
可用于设计规则
易于模型拟合,xgboost、lightgbm、catboost等都以决策树为基模型
便于理解
便于做特