2019年06月_sigmeta

11月 06月 01月

原创使用NLTK对英文文章分句，避免缩略词标点符号干扰

对于英文语料，我们想要获得句子时，可以通过正则或者NLTK工具切分。例如，NLTK：from nltk.tokenize import sent_tokenizedocument=''sentences=sent_tokenize(document)NLTK会根据“.?!”等符号切分。但是当句子中含有缩写词时，可能会产生错误的切分：sent_tokenize('fight a...

2019-06-10 11:45:43 3854

原创 Wikipedia corpus英文语料处理，获得原文

我们在预训练word vector或其他预训练任务时，需要大量的语料数据，Wikipedia开放了英文语料，大约11G：wiki英文语料下载链接该语料库是.bz2格式，但是不能直接解压，需要使用工具处理，我们介绍两种常用的处理工具，gensim和wikiextractor。Gensimgensim提供了处理工具，但是只能够获得文章的词列表，丢失了段落句子以及标点符号。from ...

2019-06-10 11:34:28 4601

fasttext 0.9.2 windows command line tools

fasttext 0.9.2 最新release版本，windows下的命令行工具，支持autotune等最新功能。

2020-12-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 使用NLTK对英文文章分句，避免缩略词标点符号干扰

原创 Wikipedia corpus英文语料处理，获得原文

fasttext 0.9.2 windows command line tools

空空如也

原创使用NLTK对英文文章分句，避免缩略词标点符号干扰