- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 使用NLTK对英文文章分句,避免缩略词标点符号干扰
对于英文语料,我们想要获得句子时,可以通过正则或者NLTK工具切分。例如,NLTK:from nltk.tokenize import sent_tokenizedocument=''sentences=sent_tokenize(document)NLTK会根据“.?!”等符号切分。但是当句子中含有缩写词时,可能会产生错误的切分:sent_tokenize('fight a...
2019-06-10 11:45:43 3854
原创 Wikipedia corpus英文语料处理,获得原文
我们在预训练word vector或其他预训练任务时,需要大量的语料数据,Wikipedia开放了英文语料,大约11G:wiki英文语料下载链接该语料库是.bz2格式,但是不能直接解压,需要使用工具处理,我们介绍两种常用的处理工具,gensim和wikiextractor。Gensimgensim提供了处理工具,但是只能够获得文章的词列表,丢失了段落句子以及标点符号。from ...
2019-06-10 11:34:28 4601
fasttext 0.9.2 windows command line tools
2020-12-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人