阿里天池_优秀策略答辩PPT和相关博客

csdn_yuan88

于 2017-06-03 17:37:51 发布

阅读量4.5k

点赞数 2

分类专栏：领域_机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011331731/article/details/72853356

版权

领域_机器学习专栏收录该内容

62 篇文章 3 订阅

订阅专栏

简介

前段时间想熟悉下机器学习完整项目，选择了阿里之前的一个相对实际的移动推荐项目（实际是分类，并非推荐），有兴趣自己研究。将本人参考借鉴的blog和ppt做了简单整理回顾。加深下印象

阿里天池大数据之移动推荐算法大赛总结及代码全公布

地址：http://blog.csdn.net/datuqiqi/article/details/46834579#

1，找规则，买过不会再买，加购物车买过的也不会再买等

2，找特征，商品相关，人相关

3，正负样本采样（采样比例尝试，选择F1较大的）

4， LR模型训练

5，附的有特征的sql（都写入文件的）

代码块1：

统计，人，商品，人+商品在一定时间内的“1，2，3，4”的次数

代码块2：

创建特征，连为大表。

特征归一化。

正反例表拆开，反例表采样，正和反采样合成一表。

合成的一表拆为2表，p1,p2

P1用训练LR分类器，分类后得到模型来预测P2得到结果的正例反例分离，假设为P21,P22

分别P21，P22再次采样，采样结果合并为，假设P3

P3用来训练gbdt

预测时先用LR预测，结果的probility>0.1在用gbdt预测。

阿里移动推荐算法大赛总结

地址：http://blog.csdn.net/u014374284/article/details/49933487

1，数据集，训练(预17)，验证(预18)，线上(预19)

2，全集和子集，全集较好，数据较多

3，特征观察，当日浏览当日购买，2/3这部分无法预测。

4，用户特征，一定时间的dot信息（浏览，加购，购买，活跃）及比值加购购买比值等，时距（最后一次购买时间），用户属性二次购买率

5，商品特征，一定时间的dot信息（浏览，加购，购买，活跃）及比值加购购买比值等，

时距（最大购买量据当前时长）

二次购买率

交互量占类比值，购买量占类比值。

6，协同特征

首次接触，最后接触，最后加购，最后浏览，最后购买等距离预测日时长

用户对改商品浏览占总浏览比值，对该商品购买占总购买比值，活跃小时占总活跃小时比值。

7，类别属性，和商品类似，扩展为类别即可。

8，异常浏览数据处理（爬虫），缺失数据填充（分情况均值）

9，模型，随机森林，gbdt（较好）

10，预测内容变更

用户只浏览

用户只收藏（有记录就一定有浏览）

用户只加购（收藏也并入加购）

用户购买过该商品

问题转为多分类问题

构造不同模型处理不同分类。在进行融合，效果并不理想

11，最后随机森林+gbdt，在采用LR进行调权融合

关于2015阿里移动推荐算法大赛的总结（三）——机器学习

地址：http://blog.csdn.net/sin_geek/article/details/45787309

1，预处理，去噪声。双十一双十二

2，3周训练，1周预测

阿里移动推荐算法比赛赛后总结--特征篇

地址：http://www.voidcn.com/blog/a1805180411/article/p-2290997.html

1，特征提取，较有特色的在

时间截距上考虑到了减法规则，用户对商品的xx操作减去用户最佳的xx操作。

用户对商品的点击收藏加购-用户的平均点击，收藏，加购/商品的平均点击，收藏，加购。

用户对商品的点击收藏加购-用户的平均点击，收藏，加购%（除）用户的平均点击收藏，，/该类目其他商品的点击收藏加购/该商品被点击，收藏，加购

2，计算单特征时去除双十二，计算交叉特征时，保留双十二。

阿里天池移动推荐PPT_CHLL

1，问题标准化

A，需要预测那些u-i对：只预测前两天有交互的pair，前两天没交互的不做预测

B，预测结果怎么样0or1二分类

2，数据建模，购买的人分成2部分，第一部分T-1日交互了，二部分（最近）T-2日交互了。T-1日交互的再次细分为加购物车，没加购物车（统计出来加购物车次日购买概率较大）。这样可以得到三个结合，T-1且加购，T-1未加购，T-2交互。再用T日购买情况作为label。滑动窗口建模，1212和1213跳过去。

3，特征建模，统计，比值，时间，

有特色的：用户交互多少类别/商品，在线时长，离线时长，是否发生过购买行为，购买时间，交互时间，交互后是否发生过购买行为。

用户访问商品占访问此类目比例。

4，算法，GBDT，RF，LR，最终gbdt

融合方法：三个数据集（M123）上分别抽样，每次抽样都是用gbdt学习，然后avg，最后结果topX作为最终结果（M1，M2，M3的top的X不同）

阿里天池移动推荐PPT_ NEU_Smart

1，数据可视化，o2o占比，日购买量视图（1212特殊），周视图（周五没特殊）

2，特征分类，U，I，C，UC，UI，GEO。

3，浏览转化率统计方式，周期购买/周期浏览，or，仅限用户购买的item中，总购买/总浏览

分组排序：用户空间角度，交互过商品的分组逆序排序

中心化，有些人的浏览明显比别人多，进行去中心化处理

特征分析：

正负样本：

Xx特征的均值方差比对（在正和负样本空间中），差异越大越好

训练测试样本

Xx特征的均值方差比对（在训练和测试样本中，差异越小越好）

行为衰减分析

间隔一天最佳，之后越来越弱

已购买未购买分开处理。

4，模型，gbdt单模型，先数据融合，在抽样：正，17*2+18*4，负17*1+18*2，之后随机抽

模型融合，次日购买模型topX1，重复购买模型topX2，隔2日购买模型topX3。融合。

阿里天池移动推荐北京仰望星空大学第一Carry

1，日行为观察，用户行为观察。双十二，爬虫，正负不均衡

2，滑动窗口10-1

3，用户空间的内的排序，

排序—〉flag,同类中该ui是x小时内最最先访问/加购/点击最多

时间排序-》同类中该ui的排序，基于同uc下ui的浏览次序，收藏次序，购车次序

数值排序-》同类中该item的购买次数排序，老客户率排序，转化率排序

排序-〉flag同类中该item点击最多，收藏最多，加车最多，人均行为最多等

4，地理特征，数据缺失严重，覆盖率地，

5，算法，最终gbdt，融合，没看太明白，目测多gbdt子模型投票

阿里天池移动推荐BWeaPon

1, 购买转化率，视图，高低分别为，浏览，加车，收藏。（和个人预想不大符，个人预想是浏览，重点对象放收藏，重点对象比对后放车，车里统一买。怀疑是淘宝设计问题，淘宝设计收藏太小，不好点，所以可能都把购物车当收藏夹了）

2,正样本前n日交互分布。

1，特色在于交叉特征（类似排序），U&UI，用户对商品操作加权（4操作合成1个）在用户总操作商品中排序），UI&UC，用户操作此商品在该类下的操作加权排序。U&UC用户操作此类别在总操作的加权排序。

2，算法创新，深度cnn，自融合

阿里天池移动推荐Sahara

1，日时序视图，0-8，9-18，18-24

2，滑动窗口7-1

其他的前面都有提到过，不再重复

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。