数据集的获得
进入该网址:https://grouplens.org/datasets/movielens/
找到如下part:
点击ml-100k.zip
进行数据集的下载
在本地解压后,将会看到如下内容:
但我们目前只需要三个文件,即:
u.data
u.item
u.user
,为便于后续操作,可以找到这三个文件,将其放入新建文件夹。
u.data
的内容是评分数据
u.item
的内容是电影数据
u.user
的内容是观众数据
随意用编辑器打开即可查看。
使用工具
个人使用的是PyCharm Community Edition 2020.3.3
项目流程
创建好新的project
后,创建新的python file
,需要用到的包是pandas
,提前下载好后将其导入;
首先读取数据
read_table()
的数据参数分别是:
数据文件
一行记录不同列分隔符
第一列是否为行标题
映射关系
由于真实数据设计数据量较大,暂时先读取较少量数据,例如:
效果展示: