【python、nlp】Word2vec的CBOW模式（文本张量表示）

最新推荐文章于 2024-09-26 20:14:39 发布

岩塘

最新推荐文章于 2024-09-26 20:14:39 发布

阅读量412

点赞数 10

文章标签：自然语言处理 python word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/David_Hzy/article/details/135478734

版权

给定一段用于训练的文本语料，再选定某段长度（窗口）作为研究对象，使用上下文词汇预测目标词汇。

假设我们给定的训练语料只有一句话：Hope can set you free（愿你自由成长），窗口大小为3，因此模型的第一个训练样本来自Hope can set，因为是CBOW模式，所以将使用Hope和set作为输入，can作为输出，在模型训练时， Hope,can,set等词汇都使用它们的one-hot 编码，如图所示：每个one-hot编码的单词与各自的变换矩阵（即参数矩阵3x5，这里的3是指最后得到的词向量维度）相乘之后再相加，得到上下文表示矩阵（3x1)。

接着，将上下文表示矩阵与变换矩阵（参数矩阵5x3，所有的变换矩阵共享参数）相乘，得到5x1的结果矩阵，它将与我们真正的目标矩阵即can的one-hot编码矩阵（5x1）进行损失的计算，然后更新网络参数完成一次模型迭代。

最后窗口按序向后移动◇重新更新参数◇直到所有语料被遍历完成，得到最终的变换矩阵(3x5)，这个变换矩阵与每个词汇的one-hot编码（5x1）相乘，得到的3x1的矩阵就是该词汇的word2vec张量表示．

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

岩塘 CSDN认证博客专家 CSDN认证企业博客

码龄3年

125: 原创

30万+: 周排名

4万+: 总排名

6万+: 访问

: 等级

1817: 积分

750: 粉丝

556: 获赞

12: 评论

571: 收藏

私信

关注

热门文章

分类专栏

大数据 5篇
JavaSpring 7篇
笔记 1篇
java 3篇
linux 11篇
mybatis 1篇
人工智能 10篇
计算机网络 5篇
数学建模
git 2篇
测试 1篇
数据结构 1篇
非关系数据库 1篇
前端 1篇
python_django 3篇
安卓移动端 1篇
计算机原理 1篇

最新评论

【信息安全】密码学
征途黯然.: 这篇关于信息安全密码学的文章非常有深度和见解！
【信息安全】密码学
ddDocs: 这篇博客让我对某个领域产生了浓厚的兴趣，强烈推荐给大家。并且让我想起了我这篇文章也有异曲同工之妙，欢迎前来指点我一番！我必然用心回报！
【信息安全】密码学
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【信息安全】密码学
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【java、微服务】MQ
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

岩塘 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。