构建推荐系统:用 Netflix 电影评价数据集练练手

By 超神经

内容概要:我们每天都在接触视频平台的「猜你喜欢」、「为你推荐」,这背后的算法是怎样获得的,需要用到怎样的数据集?

关键词:Netflix   推荐系统   算法

Netflix:让推荐算法商业化的鼻祖

Netflix 是美国的著名流媒体平台,它从租赁 DVD 起家,当下的主要业务是提供视频流播服务和影片发行制作。

Netflix 视频资源丰富

全美 36% 的家庭已订阅 Netflix

2019 年 Netflix 全球订阅用户数达到 1.58 亿, 其平台的一大特色就是「智能推荐」,即依据用户以往的观看视频类型,借助算法为用户进行视频推荐。

虽然「猜你喜欢」对于现在的很多视频平台来说,早已经算不上新鲜事,但实际上早在 2006 年,Netflix 就已经非常重视推荐算法,并为此举办了奖金高达 100 万美元的 Netflix Prize。

Netflix Prize 副产:电影评价数据集

Netflix Prize 在推荐系统领域具有极其重要的意义,它以极高的奖金额度,吸引了大量 AI 开发者投身于推荐系统相关研究,同时也开辟了「推荐算法」商业化的先河,让这项技术真正从学界进入了商界,并被后来的视频流媒体平台争相模仿。

即使是与当下的数据科学竞赛相比

Netflix Prize 的奖金也极具吸引力

Netflix 电影评价数据集包含来自 48 万用户对 1.7 万部电影的评价数据,评价数超过 100 万条,数据采集的时间段为 1998.10 – 2005.11。

Netflix 电影评价数据集

包含数量:超过100 万条数据

数据格式:TXT

数据大小:665.24 MB

采集时间:1998.10 – 2005.11

发布时间:2006 年

包含内容:用户编号、电影名、评分时间以及评分

下载地址:hyper.ai/datasets/5687

其中评分以 5 分制为基准,用户信息经过脱敏处理,隐去用户姓名,仅保留用户编号、电影名、评分时间以及评分四个维度的数字,不包括任何文本评价的内容。

准确度提高 10%,BPC 团队获百万奖金

根据赛制要求,需要将 Netflix 自己的预测算法 Cinematch 的预测效率提高 10% 以上,才有机会获得最终胜利。

最终 BellKor'Pragmatic Chaos 团队经过不断优化提交了最终验证,在测试子集上获得的 RMSE 为 0.8567 ,与 Cinematch 的表现相比,得分提高了 10.06%,获得了 Netflix 的 100 万美元大奖。

BellKor' Pragmatic Chaos 团队摘得桂冠

Netflix 电影评价数据集对于研究视频流媒体推荐算法具有重要意义,有助于从数字维度了解用户喜好,预测用户可能喜欢的视频类型,并进行推荐。

除此之外,还可以对视频进行评估,先排序后推荐,评估用户感兴趣的程度,然后组成有序列表,进行个性化推荐。

想构建推荐系统、探讨推荐算法的朋友,快下载 Netflix 电影评价数据集开启自己的模型训练吧~

数据集下载传送门→ hyper.ai/datasets/5687

也可以点击文末阅读原文进行访问。

—— 完 ——

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

更多精彩内容(点击图片阅读)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Netflix电视节目和电影数据集是一种包含Netflix平台上所有电视节目和电影信息的集合。这个数据集包括了各种元数据,如电影或电视节目的名称、类型、导演、演员、上映日期、评分等等。通过研究和分析这个数据集,可以获取有关Netflix平台上不同类型节目和电影的统计信息和趋势。这个数据集对于市场研究、推荐系统和学术研究等方面有着重要的应用价值。 通过Netflix电视节目和电影数据集,我们可以了解哪些类型的电视节目和电影Netflix上更受欢迎,以及用户对它们的评分情况。例如,我们可以找出最热门的电视剧类型是什么,哪些演员或导演最受欢迎。这些数据对电影制片商和制片人来说是宝贵的,他们可以了解观众对某些类型或某些演员的口味和偏好。 此外,Netflix电视节目和电影数据集还可以用于构建推荐系统。通过分析用户的历史观看记录和评分,可以根据相似用户的喜好向他们推荐新的电视节目和电影,提高观众的用户体验。 对于学术研究来说,Netflix电视节目和电影数据集是一个宝贵的资源。研究人员可以使用这个数据集来探索电影和电视节目的变化趋势,分析观众对不同类型的喜好,并研究用户行为和观看模式。 总的来说,Netflix电视节目和电影数据集是一个宝贵的资源,有着广泛的应用价值。通过对这个数据集的分析,可以对用户喜好和行为进行研究,提供更好的推荐服务和改进用户体验。同时,也为学术研究提供了丰富的数据来源。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值