阿里天池_优秀策略答辩PPT和相关博客

简介

前段时间想熟悉下机器学习完整项目,选择了阿里之前的一个相对实际的移动推荐项目(实际是分类,并非推荐),有兴趣自己研究。将本人参考借鉴的blog和ppt做了简单整理回顾。加深下印象

 

阿里天池大数据之移动推荐算法大赛总结及代码全公布

地址:http://blog.csdn.net/datuqiqi/article/details/46834579#

1,    找规则,买过不会再买,加购物车买过的也不会再买等

2,    找特征,商品相关,人相关

3,    正负样本采样(采样比例尝试,选择F1较大的)

4,    LR模型训练

5,    附的有特征的sql(都写入文件的)

代码块1:

统计,人,商品,人+商品在一定时间内的“1,2,3,4”的次数

代码块2:

创建特征,连为大表。

特征归一化。

正反例表拆开,反例表采样,正和反采样合成一表。

合成的一表拆为2表,p1,p2

P1用训练LR分类器,分类后得到模型来预测P2得到结果的正例反例分离,假设为P21,P22

分别P21,P22再次采样,采样结果合并为,假设P3

P3用来训练gbdt

预测时先用LR预测,结果的probility>0.1在用gbdt预测。

 

阿里移动推荐算法大赛总结

地址:http://blog.csdn.net/u014374284/article/details/49933487

1,    数据集,训练(预17),验证(预18),线上(预19)

2,    全集和子集,全集较好,数据较多

3,    特征观察,当日浏览当日购买,2/3这部分无法预测。

4,    用户特征,一定时间的dot信息(浏览,加购,购买,活跃)及比值加购购买比值等,时距(最后一次购买时间),用户属性二次购买率

5,    商品特征,一定时间的dot信息(浏览,加购,购买,活跃)及比值加购购买比值等,

时距(最大购买量据当前时长)

二次购买率

交互量占类比值,购买量占类比值。

6,    协同特征

首次接触,最后接触,最后加购,最后浏览,最后购买等距离预测日时长

用户对改商品浏览占总浏览比值,对该商品购买占总购买比值,活跃小时占总活跃小时比值。

7,    类别属性,和商品类似,扩展为类别即可。

8,    异常浏览数据处理(爬虫),缺失数据填充(分情况均值)

9,    模型,随机森林,gbdt(较好)

10,预测内容变更

用户只浏览

用户只收藏(有记录就一定有浏览)

用户只加购(收藏也并入加购)

用户购买过该商品

问题转为多分类问题

构造不同模型处理不同分类。在进行融合,效果并不理想

11,最后随机森林+gbdt,在采用LR进行调权融合

 

关于2015阿里移动推荐算法大赛的总结(三)——机器学习

地址:http://blog.csdn.net/sin_geek/article/details/45787309

1,    预处理,去噪声。双十一双十二

2,3周训练,1周预测

 

阿里移动推荐算法比赛赛后总结--特征篇

地址:http://www.voidcn.com/blog/a1805180411/article/p-2290997.html

1,    特征提取,较有特色的在

时间截距上考虑到了减法规则,用户对商品的xx操作减去用户最佳的xx操作。

用户对商品的点击收藏加购-用户的平均点击,收藏,加购/商品的平均点击,收藏,加购。

用户对商品的点击收藏加购-用户的平均点击,收藏,加购%(除)用户的平均点击收藏,,/该类目其他商品的点击收藏加购/该商品被点击,收藏,加购

2,计算单特征时去除双十二,计算交叉特征时,保留双十二。

 

阿里天池移动推荐PPT_CHLL

1,    问题标准化

A,    需要预测那些u-i对:只预测前两天有交互的pair,前两天没交互的不做预测

B,    预测结果怎么样0or1二分类

2,    数据建模,购买的人分成2部分,第一部分T-1日交互了,二部分(最近)T-2日交互了。T-1日交互的再次细分为加购物车,没加购物车(统计出来加购物车次日购买概率较大)。这样可以得到三个结合,T-1且加购,T-1未加购,T-2交互。再用T日购买情况作为label。滑动窗口建模,1212和1213跳过去。

3,    特征建模,统计,比值,时间,

有特色的:用户交互多少类别/商品,在线时长,离线时长,是否发生过购买行为,购买时间,交互时间,交互后是否发生过购买行为。

用户访问商品占访问此类目比例。

4,    算法,GBDT,RF,LR,最终gbdt

融合方法:三个数据集(M123)上分别抽样,每次抽样都是用gbdt学习,然后avg,最后结果topX作为最终结果(M1,M2,M3的top的X不同)

 

阿里天池移动推荐PPT_ NEU_Smart

1,    数据可视化,o2o占比,日购买量视图(1212特殊),周视图(周五没特殊)

2,    特征分类,U,I,C,UC,UI,GEO。

3,    浏览转化率统计方式,周期购买/周期浏览,or,仅限用户购买的item中,总购买/总浏览

分组排序:用户空间角度,交互过商品的分组逆序排序

中心化,有些人的浏览明显比别人多,进行去中心化处理

特征分析:

正负样本:

Xx特征的均值方差比对(在正和负样本空间中),差异越大越好

训练测试样本

Xx特征的均值方差比对(在训练和测试样本中,差异越小越好)

行为衰减分析

间隔一天最佳,之后越来越弱

已购买未购买分开处理。

4,    模型,gbdt单模型,先数据融合,在抽样:正,17*2+18*4,负17*1+18*2,之后随机抽

模型融合,次日购买模型topX1,重复购买模型topX2,隔2日购买模型topX3。融合。

 

阿里天池移动推荐北京仰望星空大学第一Carry

1,    日行为观察,用户行为观察。双十二,爬虫,正负不均衡

2,    滑动窗口10-1

3,    用户空间的内的排序,

排序—〉flag,同类中该ui是x小时内最最先访问/加购/点击最多

时间排序-》同类中该ui的排序,基于同uc下ui的浏览次序,收藏次序,购车次序

数值排序-》同类中该item的购买次数排序,老客户率排序,转化率排序

排序-〉flag同类中该item点击最多,收藏最多,加车最多,人均行为最多等

4,    地理特征,数据缺失严重,覆盖率地,

5,算法,最终gbdt,融合,没看太明白,目测多gbdt子模型投票

 

阿里天池移动推荐BWeaPon

1, 购买转化率,视图,高低分别为,浏览,加车,收藏。(和个人预想不大符,个人预想是浏览,重点对象放收藏,重点对象比对后放车,车里统一买。怀疑是淘宝设计问题,淘宝设计收藏太小,不好点,所以可能都把购物车当收藏夹了)

2,正样本前n日交互分布。

1,    特色在于交叉特征(类似排序),U&UI,用户对商品操作加权(4操作合成1个)在用户总操作商品中排序),UI&UC,用户操作此商品在该类下的操作加权排序。U&UC用户操作此类别在总操作的加权排序。

2,    算法创新,深度cnn,自融合

 

阿里天池移动推荐Sahara

1,    日时序视图,0-8,9-18,18-24

2,    滑动窗口7-1

 其他的前面都有提到过,不再重复

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值