分布表示(distributional representation)与分布式表示(distributed representation)


说在前面:真不是绕口令。


分布表示(distributional representation)

分布表示(distributional representation):是基于分布假设理论,利用共生矩阵来获取词的语义表示,可以看成是一类获取词表示的方法。

什么是分布假说呢?词是承载语义的最基本的单元,而传统的独热表示(one-hot represen-tation)仅仅将词符号化,不包含任何语义信息。如何将语义融入到词表示中?Harris 在 1954 年提出的分布假说(distributional hypothesis)为这一设想提供了理论基础:上下文相似的词,其语义也相似。

“这里的分布”与中文“统计分布”一词语义对应,描述的是上下文的概率分布。用上下文描述语义的表示方法(或基于分布假说的方法)都可以称作分布表示,如潜在语义分析模型(Latent Semantic Analysis, LSA)、潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)等。

分布式表示(distributed representation)

分布式表示(distributed representation),描述的是把文本分散嵌入到另一个空间,一般从是从高维空间嵌入到低维空间。

“嵌入”是几个意思?感觉跟塞入、挤入差不多呀。

还真是这样。如词的独热表示(one-hot representation),首先是高维的,且在高维向量中只有一个维度描述了词的语义。多高?词典有多大就有多少维,怎么也得万把维度吧。

如何在低维空间表达一个词呢?目前流行的是通过矩阵降维或神经网络降维将语义分散存储到向量的各个维度中,这两类方法得到的向量空间是低维的一般都可以称作分布式表示,又称为词嵌入(word embedding)或词向量)。

看吧,这就把词的表示从高维(5000-20000)嵌入到低维(50-300)。what?300维也叫低维?!是的,你没学过相对论? ^_^

明白否?这里的分布式(distributed)是“分散”、“分配”的意思,与中文“分布式计算”一词语义对应,与之相对的是局部表示(local representation)

词嵌入vs词向量

还是叫词嵌入好点。词向量容易绕人。从广义上讲,传统的词袋子模型也是用向量描述文本,也应当被称作词的向量表示,但是这种向量是高维稀疏的。在目前的NLP语境中,“词向量”特指由神经网络模型得到的低维实数向量表示。

阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭