vc 嵌入另一程序窗口_NLP·一、词向量Word Embedding（一）

最新推荐文章于 2024-04-01 18:00:00 发布

weixin_39966941

最新推荐文章于 2024-04-01 18:00:00 发布

阅读量134

点赞数

文章标签： vc 嵌入另一程序窗口

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39966941/article/details/111333435

版权

本文介绍了词嵌入的概念，重点解析了Word2vec的Skip-grams算法，包括模型的工作原理、计算过程、损失函数及参数更新。文章还提及了程序实现和梯度下降优化的后续计划，并引用了相关学习资源。

摘要由CSDN通过智能技术生成

一、词嵌入/词向量为什么可行

一句话概括就是：一个词的语义由其上下文的单词决定。

word vectors ==word embeddings ==word representations.

They are a distributed representation

二、Word2vec的两种算法

2.1 CBOW

用上下文的单词预测中心词，假设window size = 2：

在每个position t = 1,……,T，window size = m, 求已知上下文的单词，预测中心词出现的概率的似然：

2.1.2 计算

为了简化计算，我们假设每个词代表的向量一共有两个，一个是作为中心词的词向量，一个是作为上下文单词时的词向量。将单词表里的词对应的词向量组合成矩阵：

由于向量内积的几何含义就是一个向量投影到另一个向量上的大小，越大，两个向量相似度越高；越小，两个向量的相似度越低：

由于单词表的单词数量是有限个，因此要对概率归一化，这里就用到了softmax函数：

2.2 Skip-grams

用中心词预测上下文的单词，假设window size = 2：

在每个position t = 1,……,T，window size = m, 求已知上下文的单词，预测中心词出现的概率的似然：

损失函数：

2.2.1 程序实现思想——skip-gram

2.2.1.1 生成batch：X，y(以skip-gram为例，那么就是输入是中心词，输出是上下文单词的概率)

skip_window：窗口的大小，即window size

num_skips：代表着我们从整个窗口中选取多少个不同的词

例子：batch_size = 4; skip_window = 2; num_skip = 1:

2.2.1.2 前向传播——这里Word2vec讨了个巧，利用深度学习的宏观意义上的编码器解决了更新参数theta的方法：

注：1、为什么要将单词表向量化？

总结前向传播

2.2.1.3 计算loss

求此损失函数等价于计算输出的交叉熵：

2.2.1.4 梯度下降更新那两个词向量矩阵

参数更新：

三、后期计划：

1、程序实现展示；

2、梯度下降参数更新的优化

四、参考：

1、斯坦福cs224n

2、Chris McCormick 的blog

http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/

weixin_39966941

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
vc 嵌入另一程序窗口_NLP·一、词向量Word Embedding（一）

一、词嵌入/词向量为什么可行一句话概括就是：一个词的语义由其上下文的单词决定。word vectors ==word embeddings ==word representations.They are a distributed representation二、Word2vec的两种算法2.1 CBOW用上下文的单词预测中心词，假设window size = 2：在每个position t = ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。