当使用Wikipedia Extractor(GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps)工具处理所下载的wiki dump文件(https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2)时,当我执行python命令:
python Wikiextractor.py -b 10M -o zh_extracted zhwiki-latest-pages-articles.xml.bz2
时,出现了
EOFError: Ran out of input
的错误。
经过百度和google,在wikidata - "EOFError: Ran out of input" while use Wikipedia Extractor as a parser for Wikipedia Data Dump File - Stack Overflow中找到了解决方法:可能是因为windows系统的stringIO问题导致,如果换用linux系统运行的话就不会有问题。