贪心学院—自然语言处理—字符向量

字符向量

理解

字符向量的出现是为了解决在NLP中未登录词(out of vocabulary)
subword主要思想是将已有的分词自定义的字符大小将一个分词再细分为几个字符,将一个词向量转换为该分词字符向量的表示。

深入理解NLP Subword算法:BPE、WordPiece、ULM

在这里插入图片描述
上图设置的字符大小为4(词向量中4个字符表示一行),而一个词的词向量是由它所分的字符向量表示。再通过skip-gram模型求其概率。

适用情况

  1. 具有某些形态特征的语言(如英语的ing/ed/est等)
  2. 当使用字符向量表示某个词时,中间有些字符的划分没有什么实际意义,一般会忽略掉这些字符向量
  3. 字符窗口大小一般设为3-6

个人整理笔记,方便复习,若侵权,请联系。
附贪心学院课程链接: https://www.greedyai.com/courseinfor/105

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值