构建推荐系统:用 Netflix 电影评价数据集练练手

By 超神经

内容概要:我们每天都在接触视频平台的「猜你喜欢」、「为你推荐」,这背后的算法是怎样获得的,需要用到怎样的数据集?

关键词:Netflix   推荐系统   算法

Netflix:让推荐算法商业化的鼻祖

Netflix 是美国的著名流媒体平台,它从租赁 DVD 起家,当下的主要业务是提供视频流播服务和影片发行制作。

Netflix 视频资源丰富

全美 36% 的家庭已订阅 Netflix

2019 年 Netflix 全球订阅用户数达到 1.58 亿, 其平台的一大特色就是「智能推荐」,即依据用户以往的观看视频类型,借助算法为用户进行视频推荐。

虽然「猜你喜欢」对于现在的很多视频平台来说,早已经算不上新鲜事,但实际上早在 2006 年,Netflix 就已经非常重视推荐算法,并为此举办了奖金高达 100 万美元的 Netflix Prize。

Netflix Prize 副产:电影评价数据集

Netflix Prize 在推荐系统领域具有极其重要的意义,它以极高的奖金额度,吸引了大量 AI 开发者投身于推荐系统相关研究,同时也开辟了「推荐算法」商业化的先河,让这项技术真正从学界进入了商界,并被后来的视频流媒体平台争相模仿。

即使是与当下的数据科学竞赛相比

Netflix Prize 的奖金也极具吸引力

Netflix 电影评价数据集包含来自 48 万用户对 1.7 万部电影的评价数据,评价数超过 100 万条,数据采集的时间段为 1998.10 – 2005.11。

Netflix 电影评价数据集

包含数量:超过100 万条数据

数据格式:TXT

数据大小:665.24 MB

采集时间:1998.10 – 2005.11

发布时间:2006 年

包含内容:用户编号、电影名、评分时间以及评分

下载地址:hyper.ai/datasets/5687

其中评分以 5 分制为基准,用户信息经过脱敏处理,隐去用户姓名,仅保留用户编号、电影名、评分时间以及评分四个维度的数字,不包括任何文本评价的内容。

准确度提高 10%,BPC 团队获百万奖金

根据赛制要求,需要将 Netflix 自己的预测算法 Cinematch 的预测效率提高 10% 以上,才有机会获得最终胜利。

最终 BellKor'Pragmatic Chaos 团队经过不断优化提交了最终验证,在测试子集上获得的 RMSE 为 0.8567 ,与 Cinematch 的表现相比,得分提高了 10.06%,获得了 Netflix 的 100 万美元大奖。

BellKor' Pragmatic Chaos 团队摘得桂冠

Netflix 电影评价数据集对于研究视频流媒体推荐算法具有重要意义,有助于从数字维度了解用户喜好,预测用户可能喜欢的视频类型,并进行推荐。

除此之外,还可以对视频进行评估,先排序后推荐,评估用户感兴趣的程度,然后组成有序列表,进行个性化推荐。

想构建推荐系统、探讨推荐算法的朋友,快下载 Netflix 电影评价数据集开启自己的模型训练吧~

数据集下载传送门→ hyper.ai/datasets/5687

也可以点击文末阅读原文进行访问。

—— 完 ——

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

更多精彩内容(点击图片阅读)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
著名的Netflix 智能推荐 百万美金大奖赛使用是数据集. 因为竞赛关闭, Netflix官网上已无法下载. Netflix provided a training data set of 100,480,507 ratings that 480,189 users gave to 17,770 movies. Each training rating is a quadruplet of the form . The user and movie fields are integer IDs, while grades are from 1 to 5 (integral) stars.[3] The qualifying data set contains over 2,817,131 triplets of the form , with grades known only to the jury. A participating team's algorithm must predict grades on the entire qualifying set, but they are only informed of the score for half of the data, the quiz set of 1,408,342 ratings. The other half is the test set of 1,408,789, and performance on this is used by the jury to determine potential prize winners. Only the judges know which ratings are in the quiz set, and which are in the test set—this arrangement is intended to make it difficult to hill climb on the test set. Submitted predictions are scored against the true grades in terms of root mean squared error (RMSE), and the goal is to reduce this error as much as possible. Note that while the actual grades are integers in the range 1 to 5, submitted predictions need not be. Netflix also identified a probe subset of 1,408,395 ratings within the training data set. The probe, quiz, and test data sets were chosen to have similar statistical properties. In summary, the data used in the Netflix Prize looks as follows: Training set (99,072,112 ratings not including the probe set, 100,480,507 including the probe set) Probe set (1,408,395 ratings) Qualifying set (2,817,131 ratings) consisting of: Test set (1,408,789 ratings), used to determine winners Quiz set (1,408,342 ratings), used to calculate leaderboard scores For each movie, title and year of release are provided in a separate dataset. No information at all is provided about users. In order to protect the privacy of customers, "some of the rating data for some customers in the training and qualifyin
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值