字符向量
理解
字符向量的出现是为了解决在NLP中未登录词(out of vocabulary)
。
subword主要思想是将已有的分词自定义的字符大小将一个分词再细分为几个字符,将一个词向量转换为该分词字符向量的表示。
深入理解NLP Subword算法:BPE、WordPiece、ULM
上图设置的字符大小为4(词向量中4个字符表示一行),而一个词的词向量是由它所分的字符向量表示。再通过skip-gram模型求其概率。
适用情况
- 具有某些形态特征的语言(如英语的ing/ed/est等)
- 当使用字符向量表示某个词时,中间有些字符的划分没有什么实际意义,一般会忽略掉这些字符向量
- 字符窗口大小一般设为3-6
个人整理笔记,方便复习,若侵权,请联系。
附贪心学院课程链接: https://www.greedyai.com/courseinfor/105