![3c9178cb0cfbe0802699146a4b8905c2.png](https://i-blog.csdnimg.cn/blog_migrate/f5c6058f5a611d638d187229c0ddea8d.jpeg)
训练词向量等一些任务的时候,往往需要一些较大规模的中文语料,而维基百科语料是一个很好的选择。维基百科每段时间都会备份数据,我们可以选择不同时间段的语料来下载使用。
1.下载维基百科语料
下面就是维基百科的语料的下载地址:
维基百科的下载地址dumps.wikimedia.org![f4756eb341892688fab35902c6c22bcf.png](https://i-blog.csdnimg.cn/blog_migrate/f0671f6c8e73c30d82c30263d8a7568a.jpeg)
选择其中某一个时间段会发现其中有很多下载地址链接,可以根据自己的需求下载不同的语料内容。
![496c2836ff129da33154afe67c15bf26.png](https://i-blog.csdnimg.cn/blog_migrate/8f46454e22cc15318e5b7eaea1459b28.jpeg)
由于我们的需求是训练词向量,所以我选择"zhwiki-20180320-pa
训练词向量等一些任务的时候,往往需要一些较大规模的中文语料,而维基百科语料是一个很好的选择。维基百科每段时间都会备份数据,我们可以选择不同时间段的语料来下载使用。
下面就是维基百科的语料的下载地址:
维基百科的下载地址dumps.wikimedia.org选择其中某一个时间段会发现其中有很多下载地址链接,可以根据自己的需求下载不同的语料内容。
由于我们的需求是训练词向量,所以我选择"zhwiki-20180320-pa