NLP词的表示方法类型
- 词的独热表示 one-hot representation
- 向量的维度会随着句子的词的数量类型增大而增大
- 任意两个词之间都是孤立的,根本无法表示出在语义层面上词语词之间的相关信息,而这一点是致命的。
- 词的分布式表示 distributed representation
- 1954 Harris 分布假说 distributional hypothesis
- 选择一种方式描述上下文
- 选择一种模型刻画某个词(下文称“目标词”)与其上下文之间的关系。
- 基于矩阵的分布表示
- 分布语义模型
- GloVe
- 基于聚类的分布表示
- 基于神经网络的分布表示
- 词嵌入 word embedding
- 1954 Harris 分布假说 distributional hypothesis
参考
- https://www.infoq.cn/article/66vicQt*GTIFy33B4mu9