【创新实训】数据预处理(一)

数据预处理需求

以豆瓣id作为主键,以后关于电影的id指的都是douban_id

实体消歧需求数据

MVRankings
我们自己的数据集,mongo导出profile.json,转换为movie.csv,
输出文件:movie.csv
输出格式:_id, source, source_id, name, nameFrn, directors, stars, types, country, language, year, minutes, nameFrn, rating, rateNum
详细说明:逗号隔开,无空格;year由releaseDate得来,如果有多个,只保留第一个的年份。

注意得到的应当是属性尽可能齐整的数据集,但也有可能为空,需要手动以空字符串“”代替,以免之后出现NaN.

再输出一个imdb到douban的id映射文件。
输出文件2:imdb2douban.csv
输出格式:imdbId,douban_id

推荐系统需求数据

douban_csdn
来源CSDN的豆瓣电影数据集(以下简称douban_csdn)包含的user.csv有用,但只有电影中文名,没有id,可以用字符串是否相等判断(仅一一匹配时,如果重名不加入),然后链接到douban id上。

用户需要匿名,分配一个从1开始的user_id。

输出文件:ratings_csdn.csv
输出格式:user_id,douban_id,rating,timestamp
详细说明:用户id、豆瓣id、评分以逗号分隔(csv默认格式), timestamp不是原先数据集里的字符串,用time之类的库改成时间戳数字

movieLens

来源
README

ratings.csv(userId,movieId,rating,timestamp)

links.csv(movieId,imdbId,tmdbId)包含imdbId,需要去掉为空的,然后将ratings.csv中的movieId都换成imdbId,再根据imdb2douban.csv,再映射为doubanId,如果没有相应的douban_id,这条记录舍去。

输出文件:ratings_ml.csv
输出格式:userId,doubanId,imdbId,rating,timestamp

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值