12.3 准备数据集
本项目使用的是开源数据集,这个数据集包含了73,516位用户对12,294部动漫的偏好数据。每位用户可以将动漫添加到他们的已完成列表并为其评分,而这个数据集则是这些评分的汇总。。
12.3.1 动漫信息数据集
在数据集文件anime.csv中包含了关于动漫的信息,其中每一行表示一部动漫。该数据集中各个列的具体说明如下:
- anime_id:该列包含了 myanimelist.net 对每部动漫独有的唯一标识符。
- name:包含动漫的全名,提供了有关每部动漫的名称信息。
- genre:一个逗号分隔的字符串,表示该动漫的类型,包括多个不同的类型。
- type:表示动漫的类型,可能是电影(movie)、电视剧(TV)、OVA等。
- episodes:表示该动漫有多少集,对于电影而言,此值通常为1。
- rating:表示该动漫的平均评分,以10分制度进行评分。
- members:表示参与该动漫“小组”的社区成员数量,反映了动漫的社区受欢迎程度。
文件anime.csv中的这些信息使得用户可以了解每部动漫的基本信息、类型、评分以及社区参与情况。
12.3.2 评分信息数据集
在数据集文件rating.csv 中包含了关于用户对动漫的评分信息,其中每一行表示一个用户对一部动漫的评分。该数据集中各个列的具体说明如下:
- user_id:该列包含了一个非可识别的、随机生成的用户ID,用于标识不同的用户。
- anime_id:该列表示用户给予评分的动漫的唯一标识符,对应于 anime.csv 数据集中的 anime_id。
- rating:表示用户对动漫的评分,以10分制度进行评分。如果用户观看了动漫但没有给出评分,则该值为-1。
数据集文件rating.csv的目的是记录每个用户对每部动漫的评分,以便进行进一步的分析和构建推荐系统。通过这些数据,可以了解用户对不同动漫的个人喜好,为推荐系统提供基础。
12.3.3 导入数据集
使用 Pandas 读取上面介绍的两个数据集文件anime.csv和rating.csv,具体实现代码如下所示。
anime = pd.read_csv("anime-recommendations-database/anime.csv")
rating = pd.read_csv("anime-recommendations-database/rating.csv")