小垃圾做知识图谱问答系统总是碰壁,一步一步总结一下好了,无语死了
以下均需要科学上网,啧
1.去哪下载wikidata数据集?
https://www.wikidata.org/wiki/Wikidata:Database_download,网址点进去就是了
选那个1.1JSON dumps (recommended)跳转到下图,点这个连接就可以直接下载了
2.下载json格式数据集时,数据集太大将近110G,想要缩小版怎么办
我发现上面那个数据集有109个G,给我吓的,就想找缩小版数据集,呆瓜我呀搜索引擎里找了半天,最后发现缩小版不就在页面下面嘛!就上述网页往下拉,有个Old JSON and RDF dumps,点第二个就会跳转到往年的老数据集。
我随便挑了一个14年的数据集,真不错,才3G,爱了爱了,下载!(殊不知大坑在后面)
3.下载数据太太太慢了怎么办?
直接浏览器上下载真的是要等八百年,好几个小时我可不干,抄起IDM就是复制,下载,结果连不上,下载状态一直在给我loading,那就说明IDM现在用的是国内网咯,那就设置配置呗。→下载-配置-代理服务器-选择“使用系统设置”,确定。就这样?不!!还有一个很重要的事情!退出IDM,重新打开IDM才行!!!(天知道我个呆瓜在这步卡了多久,啧)
以下就是下载速度啦!去楼下买个淀粉肠回来就下载ok了。不过不知道数据集3G够不够,再说吧,不够就编故事好了。