
NLP词的表示方法类型
- 词的独热表示 one-hot representation
- 向量的维度会随着句子的词的数量类型增大而增大
- 任意两个词之间都是孤立的,根本无法表示出在语义层面上词语词之间的相关信息,而这一点是致命的。
- 词的分布式表示 distributed representation
- 1954 Harris 分布假说 distributional hypothesis
- 选择一种方式描述上下文
- 选择一种模型刻画某个词(下文称“目标词”)与其上下文之间的关系。
- 基于矩阵的分布表示
- 分布语义模型
- GloVe
- 基于聚类的分布表示
- 基于神经网络的分布表示
- 词嵌入 word embedding
- 1954 Harris 分布假说 distributional hypothesis
参考
- https://www.infoq.cn/article/66vicQt*GTIFy33B4mu9
本文探讨了词在自然语言处理中的两种主要表示方式:独热表示和分布式表示。独热表示由于维度爆炸和词汇间的语义信息丢失而存在局限。分布式表示,如基于矩阵的分布语义模型(如GloVe)和基于神经网络的词嵌入,通过捕捉词的上下文信息来捕获词汇间的语义关系。这些方法对于理解和处理自然语言至关重要。
1242

被折叠的 条评论
为什么被折叠?



