腾讯社交广告高校算法大赛——心得

这篇博客分享了作者参与腾讯社交广告高校算法大赛的心得体会,包括特征选择、特征生成、模型理解和参赛建议。特征选择关注重要性和分布一致性,特征生成涉及规则和模型衍生。建议参赛者深入理解模型,注重特征质量,保持积极态度。
摘要由CSDN通过智能技术生成

腾讯社交广告高校算法大赛——心得

Another url: https://bulihanjie.github.io/2017/05/21/腾讯社交广告高校算法大赛心得/


##感想
写了这东西之后,就感觉自己像是立了个flag一样……


##特征的选择
  关于特征选择,其中有两个方面是应该值得关注的。
  一方面是特征的重要性,特征的重要性反映的是特征对模型效果的影响程度,理论上重要性越高的特征应该保留下来,而重要性较低的会考虑删除。特征越多,会使得模型越复杂,减少不必要的特征会使得模型更加稳定。其中常用的方法可以考虑xgboost中计算的特征重要性,或者是通过扰乱某个特征值的次序根据模型效果变化来得出。特征重要性计算的方法不少,大家可以再网上查找一下。
  另一方面是特征分布是否一致,特征分布主要考虑的是线上和线下的分布差异。由于这次比赛的数据具有时序性,并且很多选手也因为在提取特征时因为信息泄露的原因导致线下成绩提升而线上成绩降低,这些问题都可以通过特征值的分布差异来排除掉,当分布不一致的特征,我们应该优先删除。特征分布差异,简单的可以通过线下和线上特征值的均值、标准差差异来考虑,或者基于其它的统计学的方法。
通过特征的重要性和分布综合考虑,应该就可以得到比较理想的特征效果了。


##特征生成
  关于特征生成,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值