WORD2VEC_1

最新推荐文章于 2024-11-13 11:24:58 发布

maste23

最新推荐文章于 2024-11-13 11:24:58 发布

阅读量136

点赞数

文章标签：深度学习 python 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maste23/article/details/108894500

版权

**

model

**
Word2Vec使用了一个你可能在其他机器学习中见过的技巧。我们要训练一个简单的神经网络，用一个隐藏层来执行某个任务，但实际上我们不打算把这个神经网络用于我们训练它的任务！相反，我们的目标实际上只是学习隐藏层的权重-我们将看到这些权重实际上是我们要学习的“单词向量”。

1. 独热编码

你不能直接把单词的字符串输入到网络（可能也有相关的技术，但这里用的是单词为基本单位i），所以每个单词给予一个编码，首先建立一个有n个单词单词库，比如第一个是a，则a的独热编码为（1，0，。。。，0）【一共n-1个0】，最后一个是zebra编码为（0，0，。。。，1）【一共n-1个0】

2. model结构

在这里插入图片描述
这个网络的输出是一个单一的向量（也有10000个分量），其中包含我们词汇表中每个单词的随机选择的邻近单词的概率。

3. 输入输出

每次输入的是一个单词对的独热编码，比如：
And I said Romeo take me somewhere we can be alone， I’ll be waiting all there’s left to do is run You’ll be the prince and I’ll be the princess It’s a love story
比如选取left为中心词，选取为5的窗口，则有4个单词对：
（left，there’s），
（left，all ），
（left，to），
（left，do）
这里left代表输入，there’s每个都代表一个独热编码，是训练的目标，
比如left是：
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。