(12-2)动漫推荐系统:准备数据集

12.3  准备数据集

本项目使用的是开源数据集,这个数据集包含了73,516位用户对12,294部动漫的偏好数据。每位用户可以将动漫添加到他们的已完成列表并为其评分,而这个数据集则是这些评分的汇总。

12.3.1  动漫信息数据集

在数据集文件anime.csv中包含了关于动漫的信息,其中每一行表示一部动漫。该数据集中各个列的具体说明如下:

  1. anime_id:该列包含了 myanimelist.net 对每部动漫独有的唯一标识符。
  2. name:包含动漫的全名,提供了有关每部动漫的名称信息。
  3. genre:一个逗号分隔的字符串,表示该动漫的类型,包括多个不同的类型。
  4. type:表示动漫的类型,可能是电影(movie)、电视剧(TV)、OVA等。
  5. episodes:表示该动漫有多少集,对于电影而言,此值通常为1。
  6. rating:表示该动漫的平均评分,以10分制度进行评分。
  7. members:表示参与该动漫“小组”的社区成员数量,反映了动漫的社区受欢迎程度。

文件anime.csv中的这些信息使得用户可以了解每部动漫的基本信息、类型、评分以及社区参与情况。

12.3.2  评分信息数据集

在数据集文件rating.csv 中包含了关于用户对动漫的评分信息,其中每一行表示一个用户对一部动漫的评分。该数据集中各个列的具体说明如下:

  1. user_id:该列包含了一个非可识别的、随机生成的用户ID,用于标识不同的用户。
  2. anime_id:该列表示用户给予评分的动漫的唯一标识符,对应于 anime.csv 数据集中的 anime_id。
  3. rating:表示用户对动漫的评分,以10分制度进行评分。如果用户观看了动漫但没有给出评分,则该值为-1。

数据集文件rating.csv的目的是记录每个用户对每部动漫的评分,以便进行进一步的分析和构建推荐系统。通过这些数据,可以了解用户对不同动漫的个人喜好,为推荐系统提供基础。

12.3.3  导入数据集

使用 Pandas 读取上面介绍的两个数据集文件anime.csv和rating.csv,具体实现代码如下所示。

anime = pd.read_csv("anime-recommendations-database/anime.csv")
rating = pd.read_csv("anime-recommendations-database/rating.csv")

未完待续

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农三叔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值