数据预处理需求
以豆瓣id作为主键,以后关于电影的id指的都是douban_id
实体消歧需求数据
MVRankings
我们自己的数据集,mongo导出profile.json,转换为movie.csv,
输出文件:movie.csv
输出格式:_id, source, source_id, name, nameFrn, directors, stars, types, country, language, year, minutes, nameFrn, rating, rateNum
详细说明:逗号隔开,无空格;year由releaseDate得来,如果有多个,只保留第一个的年份。
注意得到的应当是属性尽可能齐整的数据集,但也有可能为空,需要手动以空字符串“”代替,以免之后出现NaN.
再输出一个imdb到douban的id映射文件。
输出文件2:imdb2douban.csv
输出格式:imdbId,douban_id
推荐系统需求数据
douban_csdn
来源CSDN的豆瓣电影数据集(以下简称douban_csdn)包含的user.csv有用,但只有电影中文名,没有id,可以用字符串是否相等判断(仅一一匹配时,如果重名不加入),然后链接到douban id上。
用户需要匿名,分配一个从1开始的user_id。
输出文件:ratings_csdn.csv
输出格式:user_id,douban_id,rating,timestamp
详细说明:用户id、豆瓣id、评分以逗号分隔(csv默认格式), timestamp不是原先数据集里的字符串,用time之类的库改成时间戳数字
movieLens
来源
README
ratings.csv(userId,movieId,rating,timestamp)
links.csv(movieId,imdbId,tmdbId)包含imdbId,需要去掉为空的,然后将ratings.csv中的movieId都换成imdbId,再根据imdb2douban.csv,再映射为doubanId,如果没有相应的douban_id,这条记录舍去。
输出文件:ratings_ml.csv
输出格式:userId,doubanId,imdbId,rating,timestamp