自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 NLP 怎样把训练数据每一个句子用向量表示

前言 首先我们需要一个词库(vocabulary),包含常见词汇以及<unk>, <BOS>, <EOS>, <PAD> 等等。同时有词库相对应的两个数据:word->index和index->word。拿到数据文本txt之后,按行读取文件,每一行一个句子,我们要做的就是把每一个句子转换成向量表示,句子中的单词用one-hot embedding表示,也就是word->index中的index,同时加上特殊字符<unk>, &lt

2020-12-03 10:18:23 901

原创 NLP数据预处理

前言 文本的常见格式是txt,我们需要把txt文件中的每一句话中的每一个单词提取出来建立词库。通常,建立三个字典:word->index, index->word, word->frequency. 此外,由于将来处理文本时会遇到不在词库中的单词,所以添加<unk>, <pad>, <EOS>, <BOS>等特殊词。 以下内容以建立一个处理文本的类为例。 from collections import defaultdict UNK_T

2020-12-03 05:22:37 595

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除