产品与电影推荐:机器学习的机遇与挑战
1. 推荐系统的现状与数据获取
推荐系统在人们日常生活中的应用日益广泛,这引发了专家对其影响人们独立决策和自由感知世界能力的担忧。推荐系统的发展历程,是机器努力了解人类思想和喜好,以简化生活并推动其开发者业务的过程。
获取优质的评分数据并非易事。本文将使用 MovieLens 数据集,探讨奇异值分解(SVD)如何助力电影推荐。此外,还有 MSWeb 数据集可供使用,这两个数据集在推荐系统实验中都表现出色。
1.1 MovieLens 数据集
MovieLens 网站(https://movielens.org/)旨在帮助用户找到可能喜欢的电影。用户需对已知电影进行评分,网站依据这些评分给出推荐。该数据集有多种规模可供下载:
| 数据集规模 | 用户数量 | 电影数量 | 评分数量 | 标签应用数量 |
| — | — | — | — | — |
| 小规模 | 1,000 | 1,700 | 100,000 | - |
| 中等规模 | 6,000 | 4,000 | 1,000,000 | - |
| 大规模 | 72,000 | 10,000 | 10,000,000 | 100,000 |
| 超大规模 | 138,000 | 27,000 | 20,000,000 | 465,000 |
| 最新全量规模 | 230,000 | 27,000 | 21,000,000 | 470,000 |
以下是获取并解压该数据集的代码:
import u
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



