- 博客(4)
- 收藏
- 关注
原创 【创新实训】数据预处理(四)
从movie中取相同电影的映射关系,然后从details中取这些id对应的信息,id重新设置从0开始import pandas as pdimport pymongofrom setting import settingdb = pymongo.MongoClient(host=setting['host'])['movie'] //连接数据库db.authenticate(setting['username'], setting['password'])//用户验证//excludes =
2020-07-01 22:35:11
152
原创 【创新实训】数据预处理(三)
(1)定义数据库增删改查方法# mongodb databasefrom pymongo import MongoClientclass Database(object): def __init__(self, database, address='127.0.0.1', port=27017, name=None, pwd=None): self.conn = MongoClient(host=address, port=port) self.db = s
2020-07-01 22:18:53
230
原创 【创新实训】数据预处理(二)
分割name把name分割成中文名和外文名,使用百度翻译api//连接数据库with open('setting.json') as f: setting = json.load(f)db = MongoClient("mongodb://{}:27017/movie".format(setting['host']),username=setting['username'],password=setting['password'])["movie"]cc = opencc.OpenCC
2020-07-01 21:09:03
173
原创 【创新实训】数据预处理(一)
数据预处理需求以豆瓣id作为主键,以后关于电影的id指的都是douban_id实体消歧需求数据MVRankings我们自己的数据集,mongo导出profile.json,转换为movie.csv,输出文件:movie.csv输出格式:_id, source, source_id, name, nameFrn, directors, stars, types, country, language, year, minutes, nameFrn, rating, rateNum详细说明:逗号隔开
2020-07-01 04:03:25
400
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人