一、movielens数据集
ratings数据:
文件里面的内容包含了每一个用户对于每一部电影的评分。数据格式如下:
userId, movieId, rating, timestamp
userId: 每个用户的id
movieId: 每部电影的id
rating: 用户评分,是5星制,按半颗星的规模递增(0.5 stars - 5 stars)
timestamp: 自1970年1月1日零点后到用户提交评价的时间的秒数
数据排序的顺序按照userId,movieId排列的。
ratings = pd.read_csv("ml-20m//ratings.csv")
print(movies.describe())#返回基本统计量和分位数
print(movies.head(5))#返回数据前五行
movies.decribe中参数的意义
对于以上ratings的数值数据,结果的索引将包括计数,平均值,标准差,最小值,最大值以及较低的百分位数和50。默认情况下,较低的百分位数为25,较高的百分位数为75.50百分位数与中位数相同。
前五行数据