自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sigmeta的博客

Yesterday you said tomorrow.

  • 博客(2)
  • 资源 (1)
  • 收藏
  • 关注

原创 使用NLTK对英文文章分句,避免缩略词标点符号干扰

对于英文语料,我们想要获得句子时,可以通过正则或者NLTK工具切分。例如,NLTK:from nltk.tokenize import sent_tokenizedocument=''sentences=sent_tokenize(document)NLTK会根据“.?!”等符号切分。但是当句子中含有缩写词时,可能会产生错误的切分:sent_tokenize('fight a...

2019-06-10 11:45:43 3854

原创 Wikipedia corpus英文语料处理,获得原文

我们在预训练word vector或其他预训练任务时,需要大量的语料数据,Wikipedia开放了英文语料,大约11G:wiki英文语料下载链接该语料库是.bz2格式,但是不能直接解压,需要使用工具处理,我们介绍两种常用的处理工具,gensim和wikiextractor。Gensimgensim提供了处理工具,但是只能够获得文章的词列表,丢失了段落句子以及标点符号。from ...

2019-06-10 11:34:28 4601

fasttext 0.9.2 windows command line tools

fasttext 0.9.2 最新release版本,windows下的命令行工具,支持autotune等最新功能。

2020-12-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除