CS224n笔记二之word2vec与softmax推导

最新推荐文章于 2024-08-18 20:25:35 发布

Webbley

最新推荐文章于 2024-08-18 20:25:35 发布

阅读量2.3k

点赞数 1

分类专栏： NLP 文章标签：自然语言处理词向量 word2vec skip-gram 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liweibin1994/article/details/78154336

版权

本文是斯坦福CS224n课程的笔记，重点介绍了如何用电脑表示词的意义，特别是词向量的概念。讲解了Skip-gram模型的原理，包括条件概率的表示、Softmax函数的应用以及训练模型时计算参数向量的梯度。文章还探讨了词向量如何通过上下文预测彼此，并提到了Hierarchical softmax和Negative sampling两种训练方法。

摘要由CSDN通过智能技术生成

最近刚刚开始看斯坦福CS224n系列视频，主要讲的是自然语言处理与深度学习的结合。笔者怕自己看完视频就忘了，因此想记录下学习过程中的笔记。当然笔者发现了网上已经有人也发了一些CS224n的学习笔记。笔者主要学习了视频和参考了这篇笔记，再加上一些自己觉得难懂的地方的理解。笔者也是刚刚入门，水平有限，如有错漏，还望指出。

如何在电脑中表示一个词的意义？

用电脑表示一个词的问题

|500*0|center

词向量的主要思路

通过单词和单词的上下文预测彼此。
两个算法：
- Skip-gram：通过目标单词来预测它的上下文
- Continuous Bag of Words(CBOW)：通过上下文预测目标单词
两种训练方法：
- Hierarchical softmax
- Negative sampling

Skip-gram模型

|500*0|center

上图的意思就是在已知banking的情况下，预测turning，into，cnises，as的概率，即： $P(w_{t+j}|w_t), j = -2,-1,1,2$ 。所以我们的目标函数就是：
$J' (θ) = \prod t = 1 T \prod - m \leq j \leq m, j \neq 0 P (w t + j | w t; θ)$

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。