时间在推荐中的应用和问题

为啥强制昵称

于 2014-03-29 22:00:21 发布

阅读量570

点赞数

分类专栏：做ML 文章标签：算法推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pouloghost/article/details/22519915

版权

做ML 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

上文通过小规模试验，可以顺序在推荐中是有作用的，为什么现行系统中没听说过顺序的存在呢？

首先是数据量，上文的算法，数据量稍大就时间巨长，因为，skip-k其实是大量的增加了数据量（每次*k），而Apriori是每次消去一部分，数量不定。最终结果很可能会出现爆棚的情况。

其次是数据稀疏，使用skip-k，其实只是把很少的组合可能合并到了一起（k个），有如此相似的行为的人其实放到再大的基数里也不会很多，不能通过数据量增加推荐的可信度。

再有就是很难使用现有经典算法，协同过滤，神经网络。

其实阿里的系统是用到了时序的，只不过很隐晦。是将行为以一段时间（周）为周期，合并为一个行为向量。把数个向量连接到一起，进行线性回归，得到最终的推荐。这是一个屌爆的想法：一段时间的向量类组合，可以很好的规避了skip k这种过于精确的组合导致的数据爆炸和数据稀疏的问题。而顺序组合不同大时间段的行为向量，又成功的把时间作为衡量推荐的维度，这样的check and balance的算法真心跪拜！同时，由于时间段取的不同，很容易把稀疏的数据通过多次截取（5-7月，6-8月），重复利用。

对，使用的是线性回归，这个最最简陋的机器学习方法。为什么呢？首先，协同过滤是用不了的，因为时间在，对应的位置的距离并无实际含义。相反，A 7-9月的行为和B 10-12月的行为是相似的更有价值。这样又是子串问题，又会有数据爆炸的危险。像聚类啊这些，其实跟协同过滤是相同的思路和算法的。其次，使用神经网络，神经网络具有很神奇的理解能力，能够把这种数据很好的组合在一起，形成最终结果。但是总物品数的n倍的输入，即使是深度学习也可能有点大吧。

为啥强制昵称

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
时间在推荐中的应用和问题

上文通过小规模试验，可以顺序在推荐中是有作用的，为什么现行系统中没听说过顺序的存在呢？首先是数据量，上文的算法，数据量稍大就时间巨长，因为，skip-k其实是大量的增加了数据量（每次*k），而Apriori是每次消去一部分，数量不定。最终结果很可能会出现爆棚的情况。其次是数据稀疏，使用skip-k，其实只是把很少的组合可能合并到了一起（k个），有如此相似的行为的人其实放到再大的基数里也不会
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。