Wikipedia corpus英文语料处理，获得原文

最新推荐文章于 2022-09-21 11:45:02 发布

sigmeta

最新推荐文章于 2022-09-21 11:45:02 发布

阅读量4.6k

点赞数 2

分类专栏： nlp

本文链接：https://blog.csdn.net/sigmeta/article/details/91364666

版权

在预训练word vector等任务时，Wikipedia的英文语料库是宝贵的资源。本文介绍了两种处理工具：Gensim和Wikiextractor。Gensim仅提供词列表，而Wikiextractor能保留原文。通过wikiextractor，文章被解压到指定文件夹，可选择json格式，并用NLTK进行分句和分词。

摘要由CSDN通过智能技术生成

我们在预训练word vector或其他预训练任务时，需要大量的语料数据，Wikipedia开放了英文语料，大约11G：wiki英文语料下载链接

该语料库是.bz2格式，但是不能直接解压，需要使用工具处理，我们介绍两种常用的处理工具，gensim和wikiextractor。

Gensim

gensim提供了处理工具，但是只能够获得文章的词列表，丢失了段落句子以及标点符号。


from gensim.corpora import WikiCorpus


a = 'enwiki-latest-pages-articles.xml.bz2'
wiki = WikiCorpus(a, lemmatize=False, dictionary={})

for text in wiki.get_texts():
    for word in text:
        pass

Wikiextractor

想要获得原文，可以通过wikiextractor工具。

git clone https://github.com/attardi/wikiextractor
python wikiextractor/WikiExtractor.py INPUT_FILE -o OUTPUT_PATH --json

所有文章会

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sigmeta

关注关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Prompt-Tuning——深度解读一种新的微调范式

夏栀的博客

11-19

7万+

Prompting——深度解读一种全新的微调范式自从GPT、EMLO、BERT的相继提出，以Pre-training + Fine-tuning 的模式在诸多自然语言处理（NLP）任务中被广泛使用，其先在Pre-training阶段通过一个模型在大规模无监督语料上预先训练一个预训练语言模型（Pre-trained Language Model，PrLM），然后在Fine-tuning阶段基于训练好的语言模型在具体的下游任务上再次进行微调（Fine-tuning），以获得适应下游任务的模型。这种模式在诸

自然语言处理数据集免费资源开放（附学习资料）

数据派THU

10-02

4861

作者：Jason Brownlee翻译：梁傅淇本文长度为1500字，建议阅读3分钟本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接，对于有志于练习自然语言处理的新手而言，是极有帮助的资源。在你刚开始入手自然语言处理任务时，你需要数据集来练习。最好是使用小型数据集，这样你可以快速下载，也不用花费很长的时间来调试模型。同时，使用被广泛使用和了解的标准数据集也是有所帮助的，你可以用你的结果来

参与评论您还未登录，请先登录后发表或查看评论

wiki中英文语料处理

年轻即出发，

01-13

8040

Wiki官方提供了下载链接：https://dumps.wikimedia.org/zhwiki/latest/本文处理的中文wiki:zhwiki-latest-pages-articles.xml.bz2本文处理的英文wiki:enwiki-latest-pages-articles.xml.bz21，数据抽取，将*.xml.bz2转为可编辑txt#process_wiki.py # -*- ...

英文维基百科语料库txt（6）

03-10

已经做了 1、分词 2、去停用词 3、英文小写 4、词干提取 5、词形还原

Wikipedia 语料库处理

GZGlenn的博客

06-23

1277

参考：http://licstar.net/archives/262 参考的博客略旧，根据博客内容调整了处理过程第一步：下载语料最新的：http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 第二步：抽取正文下载 Wikipedia Extractor：https://g...

wikipedia 维基百科语料获取与提取处理 by python3.5

weixin_30703911的博客

10-27

818

英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wikimedia.org/zhwiki/ 全部语言的列表 https://dumps.wikimedia.org/backup-index.html 提取处理可以使用 wikiextractor提取正文（由于网页数量太多，结构又很纷乱，提取出来的会有少...

利用维基百科语料和gensim训练中英文word2vec模型

C_envelope的博客

08-26

2179

首先声明本文内容主要参考（1）中英文维基百科语料上的Word2Vec实验（2）Wiki语料处理旨在记录下自己亲自训练的过程维基百科语料下载地址英文：https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 中文：https://dumps.wikimedia.org/zhwi...

获取并处理中文维基百科语料

weixin_46087812的博客

03-24

2044

获取语料下载链接处理语料直接下载下来的维基百科语料是一个带有html和markdown标记的文本压缩包，基本不能直接使用。目前主流的开源处理工具主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。然而，这两个主流的处理方法都不能让人满意。Wikipedia Extractor提取出来的结果，会去掉{{}}标记的内容，这样会导致下面的情形西方语言中“数学”（；）一词源自于古希腊语的（）这是因为括号里的词带有{{}}标记，被清空了；而按照网上的教程，

《自然语言处理-基于预训练模型的方法》笔记

github_34349558的博客

08-13

5262

《自然语言处理-基于预训练模型的方法》笔记文章目录《自然语言处理-基于预训练模型的方法》笔记@[toc]〇.写在前面一、绪论(一) NLP 任务体系I.任务层级II.任务类别III.研究层次(二) 预训练的时代二、NLP 基础(一) 文本表示I.独热向量II.分布式表示III.词嵌入表示IV.词袋表示(二) NLP 任务I.语言模型II. 基础任务III. 应用任务(三) 基本问题I. 文本分类问题II. 结构预测问题III. 序列到序列问题(四) 评价指标I. 标准答案明确的情况II. 标准答案不明确的

wiki2corpus:快速收集多语种维基百科语料库

05-20

Wiki2语料库快速收集多语言维基百科语料库。介绍这是我为语言识别项目创建的简单脚本，当时我需要一个小的多语言语料库，并且不想下载完整的Wikipedia转储。 wiki2corpus是一个Wikipedia爬网程序，旨在从Wikipedia文章中快速构建一个小型的多语种语料库。它不适用于抓取大量页面（请参阅--max-pages选项）。快速开始如果您真的不耐烦，可以使用以下命令来运行wiki2corpus：安装依赖项pip install wikipedia nltk requests[security] （您需要root访问权限或virtualenv才能安装软件包）克隆存储库为语料库创建一个目录，例如mkdir -p data/corpus 如果您想保留原始文章，请为其创建目录，例如mkdir data/raw 选择语言及其对应的维基百科代码列表（例如，德胡

英文维基百科词向量训练语料

11-22

enwiki-latest-pages-articles1.xml-p10p30302.bz2，维基百科用来训练英文word2vec词向量的语料

Python字符串与自然语言处理：文本分析的强力工具

Python是一种在文本处理上非常强大的编程语言，因其简洁直观的语法和丰富的库支持，在处理字符串和文本方面尤其得心应手。本章将带领读者探索Python的字符串基础，了解文本处理的初步知识，为之后深入学习自然语言...

word2vec- -入门

qq_38096703的博客

06-11

4473

一、原理word2vec原理部分有大神已经写好的，此处给出链接方便查看：http://www.cnblogs.com/pinard/p/7160330.htmlhttps://blog.csdn.net/lyc_yongcai/article/details/73275229二、中文维基百科语料上的Word2Vec实验参考：https://www.jianshu.com/p/ec27062bd45...

中文维基百科的语料库下载和繁体转换为简体的操作

码其一生的博客

09-21

866

中文维基百科的语料库下载和繁体转换为简体的操作。

wiki中文文本语料下载，在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

光英的记忆博客

06-16

7969

首先下载wiki中文语料（大约1.7G） https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 下载的文件名为“zhwiki-latest-pages-articles.xml.bz2” 这个大家都知道，然后没什么卵用，因为墙太强大，所以下载不下来，只能另辟蹊径了。。。因此搜来搜去找到2...

中文维基百科语料上的Word2Vec实验