zhwiki语料预处理

最新推荐文章于 2021-05-31 12:10:53 发布

wangxiaosu

最新推荐文章于 2021-05-31 12:10:53 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/wangxiaosu0501/article/details/104215670

版权

下载的是红色圈中的文件：zhwiki-20200201-pages-articles.xml.bz2

注：其实zhwiki的dump应该是做增量dump的，所以可以直接下载latest即可，不必强调下载的是哪一天的。

WikiCorpus 类可以处理，但是抽取出来的数据都去除了标点符号，估计也可以设置参数保留这些标点符号，但是在BERT的Git主页上推荐了wikiextractor 工具，所以索性试试这个工具，展示放一放gensim。

使用参考：主页有详细的使用指导

1、下载：直接从上面主页下载下来后，无需任何安装，直接可以用。

2、目前使用的抽取命令：

python3 WikiExtractor.py 
-o ./zhwiki-20200201 
-b 10M 
--json 
--processes 4 
../zhwiki-20200201-pages-articles.xml.bz2

-o ./zhwiki-20200201

表示将抽取出的数据输出到目录zhwiki-20200201中，其下会创建多个子目录，然后将抽取的文章数据导出到子目录中的文件中，每个文件大小有限制，由参数 -b 指定。

-b 10M

每个文件的最大大小

--json

文件中的一行数据用json的格式存放，格式如下：

{"id": "", "revid": "", "url":"", "title": "", "text": "..."}

--processes 4

4个处理器（估计是多线程）

../zhwiki-20200201-pages-articles.xml.bz2

待抽取的原始zhwiki文件

关注