MovieLens 数据集介绍
MovieLens 数据集是由明尼苏达大学的GroupLens研究小组维护的一个广泛使用的电影评分数据集,主要用于推荐系统的研究。该数据集包含用户对电影的评分、标签以及其他相关信息,是电影推荐系统开发与研究的常用数据源。
数据集版本
- MovieLens 数据集有多个版本,不同版本的数据集规模和内容有所不同:
- MovieLens 100k 数据集:包含943位用户对1682部电影的100,000条评分数据,评分范围为1到5分。
- MovieLens 1M 数据集:包含1000名用户对3900部电影的100万条评分数据。
- MovieLens 10M 数据集:包含71,567名用户对10,681部电影的1000万条评分数据。
- MovieLens 20M 数据集:包含138,000名用户对27,000部电影的2000万条评分数据。
- MovieLens 25M 数据集:是目前最新发布的版本,包含更多的用户和电影数据。
数据集结构
数据集通常包含以下主要文件:
- 用户信息文件(Users.dat),包含用户的基本信息,如用户ID、性别、年龄、职业等。
-
UserID:用户唯一标识。从1~6040, 代表了6040个MovieLens用户
-
Gender:性别(M表示男性,F表示女性)。
-
Age:用户年龄,分成了7组
- 1: “Under 18”
- 18: “18-24”
- 25: “25-34”
- 35: “35-44”
- 45: “45-49”
- 50: “50-55”
- 56: “56+”
-
Occupation:用户职业,如学生、教师、工程师等。
- 0: “other” or not specified
- 1: “academic/educator”
- 2: “artist”
- 3: “clerical/admin”
- 4: “college/grad student”
- 5: “customer service”
- 6: “doctor/health care”
- 7: “executive/managerial”
- 8: “farmer”
- 9: “homemaker”
- 10: “K-12 student”
- 11: “lawyer”
- 12: “programmer”
- 13: “retired”
- 14: “sales/marketing”
- 15: “scientist”
- 16: “self-employed”
- 17: “technician/engineer”
- 18: “tradesman/craftsman”
- 19: “unemployed”
- 20: “writer”