nlp-WordEmbedding

最新推荐文章于 2024-06-30 16:43:19 发布

_Moonquakes_

最新推荐文章于 2024-06-30 16:43:19 发布

阅读量233

点赞数 4

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63776870/article/details/139232280

版权

Word Embedding

机器在没有监督的情况下，通过阅读大量文档来学习单词含义。

1-of-N Encoding WordEmbedding WordClass三种不同形式如下：

一个词可以用它的上下文来解释。

如何利用上下文？

1.基于计数

如果单词wi和wj经常同时出现，则V(wi)和V(wj)会距离很近。用V(wi)·V(wj)计算Nij（wi和wj在同一个文档中的次数）

2.基于预测

建立语言模型

P(“wreck a nice beach”)

=P(wreck|START)P(a|wreck)P(nice|a)P(beach|nice)

上述句子中，P(b|a)是神经网络预测下一个单词的概率。

上图中，通过输入每个单词的1-of-N编码进入神经网络，从而输出下一个单词的概率。

取出第一层神经元的输入，用它来代表一个单词w，则词向量，单词嵌入特征则为V(w)。

共享参数

输入单词w(i-2)的编码x(i-2)，其权重为W1，输入单词w(i-1)的编码x(i-1)，其权重为W2。

经过神经网络后，得出每个单词作为下一个单词wi的概率。

x(i-2)和x(i-1)的长度均为|V|，z的长度为|Z|，z=W1*x(i-2)+W2*x(i-1)。

权重W1和W2均为|Z|*|V|的矩阵。

当W1=W2=W时，z=W*(x(i-2)+x(i-1))。

x(i-2)和x(i-1)中对应行输入到z中同一行的权重应当相同，否则一个词将会有两个词向量。

多样化架构

连续字袋(CBOW)模型：

将w(i-1)和w(i+1)均作为输入得出wi，即根据单词的上下文来预测单词

Skip-gram：

将wi作为输入的w(i-1)和w(i+1)，即基于给定的单词预测上下文

Beyond Bag of word：

具有不同长度的词序列->具有相同长度的向量。

（表示单词序列含义的向量，单词序列可以是文档或者段落）

要理解单词序列的意思，就不能忽略单词的顺序。

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
nlp-WordEmbedding

输入单词w(i-2)的编码x(i-2)，其权重为W1，输入单词w(i-1)的编码x(i-1)，其权重为W2。x(i-2)和x(i-1)的长度均为|V|，z的长度为|Z|，z=W1*x(i-2)+W2*x(i-1)。取出第一层神经元的输入，用它来代表一个单词w，则词向量，单词嵌入特征则为V(w)。将w(i-1)和w(i+1)均作为输入得出wi，即根据单词的上下文来预测单词。将wi作为输入的w(i-1)和w(i+1)，即基于给定的单词预测上下文。当W1=W2=W时，z=W*(x(i-2)+x(i-1))。
复制链接

扫一扫

_Moonquakes_ CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

119万+: 周排名

8万+: 总排名

6757: 访问

: 等级

228: 积分

62: 粉丝

104: 获赞

2: 评论

114: 收藏

私信

关注

热门文章

最新评论

李宏毅机器学习笔记3——CNN（卷积神经网络）和RNN（循环神经网络）
CSDN-Ada助手: 非常感谢您对李宏毅机器学习系列的持续关注和创作！您的第三篇博客标题听起来非常有趣，我期待能够阅读到您对CNN和RNN的深入探讨。通过这样的学习笔记，我相信您对这两个重要的神经网络模型能够有更深入的理解。同时，我也要恭喜您能够持续写作，这对于知识的传播和您个人的成长都有着重要的意义。在下一步的创作中，我建议您可以进一步探索CNN和RNN在实际应用中的案例，或者深入研究它们的原理和优化方法。这样的深入研究将使您的读者更容易理解这些神经网络模型的实际应用和效果，并且为他们提供有价值的知识。同时，如果您能够结合一些实例或者案例来说明您的观点，那将更加生动和易于理解。希望我的建议能对您的创作有所帮助，期待您未来更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
李宏毅机器学习笔记1——classification（分类）
CSDN-Ada助手: 恭喜您开始博客创作！标题中提到的李宏毅机器学习笔记系列是非常受欢迎的学习资源，相信您的博客会吸引到很多对机器学习感兴趣的读者。对于分类这一主题，您可以继续深入探讨不同的分类算法、实际应用案例以及优化技巧等方面的内容，这样读者们能够更全面地了解分类问题的解决方法。期待看到您的下一篇博客，希望您能保持谦虚的态度继续分享知识，为读者提供更多有价值的学习资源。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
李宏毅机器学习笔记2——DeepLearning（深度学习）
CSDN-Ada助手: 非常棒的博文！很高兴看到你继续分享关于机器学习的知识。你对深度学习进行了很好的入门介绍，特别是对MLP深度学习的解释。我鼓励你继续创作类似的博文，因为你的解释很清晰易懂，对初学者非常有帮助。除了你提到的内容，还有一些与深度学习相关的知识和技能可以进一步探索。例如，你可以深入了解不同的深度学习模型，如CNN和RNN，它们在图像处理和自然语言处理等领域有广泛应用。另外，了解深度学习的优化算法，如梯度下降和反向传播，对于进一步提高模型性能也非常重要。继续努力，期待你的下一篇博文！谦虚的态度和分享精神将会帮助你在机器学习领域取得更大的成就。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。