构建推荐系统：用 Netflix 电影评价数据集练练手

HyperAI超神经

于 2020-04-18 12:35:10 发布

阅读量2.9k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HyperAI/article/details/105608730

版权

By 超神经

内容概要：我们每天都在接触视频平台的「猜你喜欢」、「为你推荐」，这背后的算法是怎样获得的，需要用到怎样的数据集？

关键词：Netflix 推荐系统算法

Netflix：让推荐算法商业化的鼻祖

Netflix 是美国的著名流媒体平台，它从租赁 DVD 起家，当下的主要业务是提供视频流播服务和影片发行制作。

Netflix 视频资源丰富

全美 36% 的家庭已订阅 Netflix

2019 年 Netflix 全球订阅用户数达到 1.58 亿， 其平台的一大特色就是「智能推荐」，即依据用户以往的观看视频类型，借助算法为用户进行视频推荐。

虽然「猜你喜欢」对于现在的很多视频平台来说，早已经算不上新鲜事，但实际上早在 2006 年，Netflix 就已经非常重视推荐算法，并为此举办了奖金高达 100 万美元的 Netflix Prize。

Netflix Prize 副产：电影评价数据集

Netflix Prize 在推荐系统领域具有极其重要的意义，它以极高的奖金额度，吸引了大量 AI 开发者投身于推荐系统相关研究，同时也开辟了「推荐算法」商业化的先河，让这项技术真正从学界进入了商界，并被后来的视频流媒体平台争相模仿。

即使是与当下的数据科学竞赛相比

Netflix Prize 的奖金也极具吸引力

Netflix 电影评价数据集包含来自 48 万用户对 1.7 万部电影的评价数据，评价数超过 100 万条，数据采集的时间段为 1998.10 – 2005.11。

Netflix 电影评价数据集

包含数量：超过100 万条数据

数据格式：TXT

数据大小：665.24 MB

采集时间：1998.10 – 2005.11

发布时间：2006 年

包含内容：用户编号、电影名、评分时间以及评分

下载地址：hyper.ai/datasets/5687

其中评分以 5 分制为基准，用户信息经过脱敏处理，隐去用户姓名，仅保留用户编号、电影名、评分时间以及评分四个维度的数字，不包括任何文本评价的内容。

准确度提高 10%，BPC 团队获百万奖金

根据赛制要求，需要将 Netflix 自己的预测算法 Cinematch 的预测效率提高 10% 以上，才有机会获得最终胜利。

最终 BellKor'Pragmatic Chaos 团队经过不断优化提交了最终验证，在测试子集上获得的 RMSE 为 0.8567 ，与 Cinematch 的表现相比，得分提高了 10.06％，获得了 Netflix 的 100 万美元大奖。

BellKor' Pragmatic Chaos 团队摘得桂冠

Netflix 电影评价数据集对于研究视频流媒体推荐算法具有重要意义，有助于从数字维度了解用户喜好，预测用户可能喜欢的视频类型，并进行推荐。

除此之外，还可以对视频进行评估，先排序后推荐，评估用户感兴趣的程度，然后组成有序列表，进行个性化推荐。

想构建推荐系统、探讨推荐算法的朋友，快下载 Netflix 电影评价数据集开启自己的模型训练吧~

数据集下载传送门→ hyper.ai/datasets/5687

也可以点击文末阅读原文进行访问。

—— 完 ——

扫描二维码，加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

更多精彩内容（点击图片阅读）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。