早一段时间看了决赛的答辩直播,作为一只萌新,决赛中提到的一些trick其实许多都有用到,但是没能够整合起来形成系统的框架,东拼西凑,自己都不知道一些trick的效果如何也加了进去,所以效率还是低了一些。
决赛是用前7天的数据预测第8天下午的购买量。比之初赛的难度加大。
拜拉席恩队
1.Binning
之前一直不知道在第一部分里的分段函数的专业名词叫啥,原来是叫做binning,分箱的意思,为了避免过拟合。
例如user_age_level字段,分成7个年龄段,10-20,20-30...80-90,之类的,实际上我们知道接受互联网的大概是80后,现在的80后大概是40岁,40岁之后的人对互联网感到更加新鲜,更有可能去点击广告,那么后面几个分段就没必要划得那么细。
分箱的作用就在于,把该特征用广告点击率转化率排序(is_trade),直接体现各个年龄段的人点击广告的概率的大小。
2.交叉特征的进阶(属性排序特征)
排序特征:衣服这一类目中的点击率排序
前面做了各个特征的点击率排序,但没有想过用item_category中的小字段排序,