数据挖掘实践(资金流入流出预测)--Task04:特征工程

本文探讨了数据挖掘中预测资金流入流出的赛题,重点在于特征工程。内容涵盖赛题解读,强调80%精力应放在特征选取上,讨论了离散型特征的重要性,如用于规则设计、模型拟合和易于理解。提出了特征组合策略,包括简单的数学运算和针对时间序列问题的特定特征。同时,提到了特征选择的问题,建议剔除无关特征,处理自变量共线性,以构建最优特征子集。
摘要由CSDN通过智能技术生成

数据挖掘实践(资金流入流出预测)–Task04:特征工程

赛题解读
赛题介绍:https://tianchi.aliyun.com/competition/entrance/231573/introduction
数据集介绍及下载:https://tianchi.aliyun.com/competition/entrance/231573/information
阅读完赛题介绍后,总结了一下这个赛题的目的就是预测未来一个月,每天余额宝总的的转入金额和转出金额。是一个回归问题。

数据挖掘“二八原则“
80%的精力 => 选取特征
20%的精力 => 模型融合等
特征工程
基于数据分析与探索提取潜在有价值的特征
在这里插入图片描述
在这里插入图片描述
离散型特征很重要
可用于设计规则
易于模型拟合,xgboost、lightgbm、catboost等都以决策树为基模型
便于理解
便于做特

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值