斯坦福CS224n NLP课程【二】——词向量表示：Word2vec

最新推荐文章于 2024-04-12 21:23:11 发布

桐原因

最新推荐文章于 2024-04-12 21:23:11 发布

阅读量675

点赞数

分类专栏：斯坦福CS224n NLP 文章标签：机器学习自然语言处理深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36287702/article/details/108315204

版权

斯坦福CS224n NLP 专栏收录该内容

18 篇文章

订阅专栏

我们怎样表示一个词的含义？

含义的定义：代表了词、句子的想法 signifier <-> signified 指称物和被指称物两个部分，也就是形式与内容。

我们如何在计算机中使用含义:

通常使用WordNet这类的分类词典表示上下位关系和同义词

但是出现一个问题，对于这样的不同的同义词的区分度不够一词多义

大量的nlp处理基本都是使用原子单词也就是使用one-hot vector 表示词的含义，包含的词越多，维度就越大。但是无法表示词与词之间的联系

我们希望我搜索dell notebook匹配出dell laptop 但是one-hot 不能表示这两者之间的关系。所以我们需要建立词与词之间的关系

使用分布相似性 distributional similarity 来表示词与词之间的相似性是一种关于词汇语义的理论

分布相似性是指：你可以获取大量表示某个词汇含义的值，只需通过观察其出现的上下文并对这些上下文做一些处理就可以得到假设想知道banking的含义，找包含banking大量的句子，通过前后词语就可以推断出banking的含义。

构建一个密集型vector 让它可以预测目标单词所在文本的其他词汇例如使用点积对其做些修改使得它可以预测

distributional representations 用密集型vector 表示词汇含义分布式表示是通过分布式相似进行构建

word2vec

神经网络的词嵌入基本概念以及embedding的含义

低纬度向量表示

word2vec的主要思想：包含两个算法和两个训练模型

word2vec其中一个算法 Skip-grams 思想：在每一个估算步都取一个词作为中心词汇，尝试预测它一定范围内的上下文的词汇，所以这个模型将定义一个概率分布即给定一个中心词汇，某个单词在它上下文出现的概率。选取词汇的向量表示，以让概率分布值最大化

word2vec的细节

目标函数将遍历文本，在中心词汇的-m到m之间即2m大小的窗口，就可以获取一个概率分布，可以通过中心词汇给出其上下文的词汇的概率。设置一个参数Θ让上下文中所有词汇出现的概率最高，Θ就是词汇向量的表示，也是每个词汇的向量表示的唯一参数

o代表了单词或者输出的下标，c代表中心词汇的下标。Uo是索引为o的单词所对应的向量，Vc是中心词汇对应的向量

计算过程

训练word2vec的参数Θ

让每一个词都有两个vector 这样会更简单一些

首先对对数化，简化之后进行求偏导对于复合函数使用链式法则

梯度下降算法

随机梯度下降因为参数很多，所以随机选取一点进行梯度下降算法这样做是很粗糙的事实上很有效

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。