词向量

原创于 2017-07-19 10:15:04 发布 · 853 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

其他专栏收录该内容

48 篇文章

订阅专栏

本文介绍了向量空间模型的基本概念，包括独热编码的局限性、基于计数和概率的方法。通过实例说明了如何利用这些方法来量化词语间的相似性和紧密程度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

向量空间模型

这一模型的方法都依赖于分布式假设，其核心思想为：出现于上下文情景中的词汇都有相类似的语义。

独热编码

过去采用的独热编码（one-hot encoding）实质上是将大小为 N 的字典创建 N 维空间，每个词占用一维。这样无法表示每个词之间的联系。但如果把这些词放在一维空间，会给他们强行加上似是非是的数量关系（这是存在的，但是仅凭数量上的大小关系并无法全部描述词与词之间的关系）。

基于计数的方法

于是采用一种统计词与词之间相接次数（即在大型语料库中与其邻接词共同出现的频率）的二维表格，大小为 $N\times N$ 。这样便可从表格中了解到词与词之间的相似性以及词语连接的紧密程度。

例如，从“我喜欢吃梨”和“我喜欢吃饭”这个例子里我们可以了解到“梨”和“饭”的语义是相似的，而“我”和“喜欢”是紧密相连的。

尽管这样可以描述词语之间的关系，但由于维度过高，因此常采用像PCA、SVD奇异值分解这样的方法得到一个稠密的向量。这种表示也叫做词语的嵌入表示。

$A_{m\times n} \approx U_{m\times r}\Sigma_{r\times r}V^T_{r\times n}$

其中 $m = n$ ，往往 $r = 2$ ，向量取 $U_{m\times r}$ . 然后我们可以将结果显示在一个 $x O y$ 平面中，可以直观地感受到意思相近的词靠得比较近。当然 $r$ 也可以取类似 200 或 300 这样的固定值，描述更多特征。

这种方法虽然有很好的性能，但是它要求我们追踪所有词汇的共生矩阵。

基于概率的方法

以2013年提出的 skip-gram 模型为例，首先需要构建一个字典，并把极不常见及拼写错误的词移除。然后对语料库第 $i$ 个词，以中心词为输入、左右 $r$ 个词为输出创建训练样本（也称窗口大小为 $r$ ）。

理想情况下，我们总是希望根据输入预测最佳的输出，先用随机值初始化词向量 $V_i$ ，可以求得词语之间的距离（如欧式距离），得出可信度最高（距离最小）的词。但为了避免比对所有词，我们采用噪声对比估计损失（noise-contrastive estimation loss），它只使用由我们挑选出来的 k 个噪声单词作为负样本，而没有使用整个语料库，这使得训练变得非常快。

作为训练的结果，我们得到了词向量的嵌入表示。

参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。