1. 下载文件:
数据文件最好采用百度云保存链接后下载,或者采用firefox插件downthemall
zhwiki-20140823-pages-articles.xml.bz2
zhwiki-20140823-categorylinks.sql.gz
zhwiki-20140823-pagelinks.sql.gz
JWPL Datamachine包:
2. 生成数据文件:
参考:JWPL_code_google_DataMachine
java -Dfile.encoding=utf8 -Xmx4g -cp jar-with-dependencies.jar de.tudarmstadt.ukp.wikipedia.datamachine.doma