协同过滤算法_利用数据分析量化协同过滤算法的两大常见难题

点击上方“蓝色字体”,选择 “设为星标”

关键讯息,D1时间送达!

b45125ec93c9df9cc3c0732629c367d1.png

推荐系统自从问世以来解决了许多不同的商业产品问题,深受广大互联网从业者的喜爱。传统的互联网电商公司像阿里巴巴和京东已经把推荐系统当成了自己的核心技术资产之一,而新兴的互联网产品像今日头条和抖音,也早已把推荐系统作为了自己的技术立足之本。然而伴随着推荐系统的蓬勃发展,一些推荐系统在技术上的挑战和困难却总是挥之不去。

在优化算法的过程中,工程师总是强调分析数据进一步提高算法性能。但是对于一些老大难问题怎样分析数据,业内目前还没有一些较为全面和体系化的方法论。2018年在成都举行的 ICCCBDA 2018 会议刊登了一篇题为 Quantitative Analysis of Matthew Effect and Sparsity Problem in Recommender Systems 的论文,尝试着精准量化协同过滤算法中的两个常见难题:马太效应和稀疏性问题。

协同过滤是推荐系统最基本的方法。虽然如今推荐系统已经是深度学习的各种算法像 DeepFM 等的天下,但是一些基本的推荐系统的方法仍然是被用作 baseline 的工具。并且在一些并不具备深度学习能力的企业,协同过滤仍然是流行的算法。

协同过滤面临的两个主要挑战,一个是马太效应,另一个是数据稀疏性问题。马太效应是指在协同过滤的相似性计算中与某个物品相似的物品数量极大,导致这个物品对所有的物品都有影响。另外马太效应会导致数据分布不均衡,直接造成在 MapReduce 计算的过程中效率低下。而数据稀疏性问题指的是有的用户对应的物品过少或者有的物品对应的用户过少,导致算法的计算结果覆盖率很低。研究界和工业界针对这两个问题提出了很多不同的算法意图解决相应问题。但是在 ICCCBDA 2018 的论文之前,并没有人明确的用数学公式对这两个问题进行量化,以方便数据分析和算法的进一步优化。

作者用相似度的期望值来衡量协同过滤中的马太效应,而用相似度计算中关联的用户/物品数来衡量协同过滤中的稀疏性问题。因为推荐系统的应用场景大部分是长尾物品,作者假设了物品的分布服从 Zipf’s Law,也就是热度排名第 i 位的物品的分布占比是 1/i。利用组合数学的方法,我们可以得到一系列的公式。推导过程论文中有详细的记载。最终的推导结果如下:

针对于基于用户的协同过滤的马太效应,我们有用户 A 和用户 B 的平均期望为:

093c86f763c5420dc98380d8f7d55d72.png

针对基于物品的协同过滤的马太效应,我们有用户 A 和用户 B 的平均期望为:

999b4ec90db67a872d4d5353a59c5ef7.png

针对基于用户的协同过滤的稀疏性问题,参与相似性计算的物品数量期望为:

eb94e13201806bfef3bc2858933072e7.png

针对基于物品的协同过滤的稀疏性问题,参与相似度计算的物品数量期望为:

6a7bc48fa38fdacfeb9535958e78632b.png

作者随后进行了实验,对于推导的公式进行了验证:

06f60aa3fda5d4ef9666940894ab4359.png

上图显示的是基于物品的协同过滤的稀疏性在真实数据集合 LastFM 中的分布,与公式中的马太效应基本吻合。

本文的数学公式推导过程以及整个的数据分析思路并不复杂。主要贡献在于首次提出了量化推荐系统马太效应和数据稀疏性的方法,使得系统化的解决这两个问题成为可能。

(来源:51CTO)

如果您在企业IT、网络、通信行业的某一领域工作,并希望分享观点,欢迎给企业网D1Net投稿064146b80f2cb6ac22569e7b1d06123a.pngd96d38817ed68bb8c549b7660bb70950.png 投稿邮箱:editor@d1net.com

点击蓝色字体1ef3b72c4cf6056d27723350a4dd172a.png关注

您还可以搜索公众号“D1net”选择关注D1net旗下的各领域(云计算,数据中心,大数据,CIO, 企业通信 ,企业应用软件,网络数通,信息安全,服务器,存储,AI人工智能,物联网智慧城市等)的子公众号。

企业网D1net已推出企业应用商店(www.enappstore.com),面向企业级软件,SaaS等提供商,提供陈列,点评功能,不参与交易和交付。现可免费入驻,入驻后,可获得在企业网D1net 相应公众号推荐的机会。欢迎入驻。 扫描下方“ 二维 ”即可注册,注册后读者可以点评,厂商可 以 免费入

c7f51974a914c546ff850dcbbc15ebeb.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值