【自然语言处理】word2vec的学习记录

最新推荐文章于 2024-02-28 15:55:13 发布

VIP文章代码拖拉鸡

最新推荐文章于 2024-02-28 15:55:13 发布

阅读量155

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38290604/article/details/106295802

版权

word2vec是用来生成词向量的相关模型，由Google在2013年提出，相关的论文有以下三篇
Efficient Estimation of Word Representations in Vector Space
Distributed Representations of Words and Phrases and their Compositionality

基本介绍

word2vec的基本思想是：利用相似的词具有相似的上下文这一思想，训练神经网络模型。模型的输入是某个词，输出是这个词的上下文。经过神经网络的训练后，可以得到每一个词在高维空间中的向量表示，其中相似的词语在高维空间中的向量表示也是相互靠近的。

word2vec有两种不同的模型，分别是CBOW和Skip-Gram.CBOW的基本思想是：用上下文词来预测中心词；Skip-Gram的基本思想是：用中心词来预测上下文词。

1.背景知识

在word2vec提出前，已经有很多表示词向量的方法，也有一些神经网络语言模型。但是这些模型或多或少会存在一定的缺陷。

1.1词向量

词向量的表示分为离散型和分布式型两种，离散型的词向量表示，词语与词语之间没有直接的联系，无法计算不同词向量之间的相似性；分布式型的词向量有传统的n-gram模型以及神经网络语言模型，分布式的词向量之间的关系可以进行计算。

1.1.1 one-hot

one-hot是最简单的词向量表示，它的形式是用N维向量来表示单词(N代表词表的长度)，在N维向量中，单词对应词表的序号维度上的值为1，其余都为0.这种编码方式存在很多缺陷。

1.1.2词袋模型

词袋模型的维度也是N，与one-hot不同的是，词袋模型的词向量中每一个维度的数值都代表词表中的单词在文本中出现的次数。这种方式也存在很多缺陷。

1.2 语言模型

神经网络语言模型用来训练词向量，它可以获得分布式的词向量，这种词向量解决了离散型词向量的缺陷。

1.2.1n-gram模型

自然语言处理中N-Gram模型介绍

1.2.2NNLM

参考论文《A Neural Probabilistic Language Model》

2.word2vec模型

word2vec有两种模型，分别是CBOW和Skip-Gram，下边分别介绍这两种模型的基本架构。

2.1 CBOW模型

CBOW模型是指，在已知一个单词上下文的情况下，对这个单词进行预测。例如已知单词 $w_{t-2},w_{t-1},w_{t+1},w_{t+2}$ ,预测单词 $w_t$ .学习的目标是最大化对数似然函数
$\sum logp(w|Context(w))$
CBOW的模型架构图如下
在这里插入图片描述

2.2 skip-gram模型

skip-gram模型是指，在已知上下文的情况下，对中心词进行预测。例如已知单词 $w_t$ ，预测上下文单词 $w_{t-2},w_{t-1},w_{t+1},w_{t+2}$ .学习的目标函数是

最低0.47元/天解锁文章

代码拖拉鸡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【自然语言处理】word2vec的学习记录

word2vec是用来生成词向量的相关模型，由Google在2013年提出，相关的论文有以下三篇Efficient Estimation of Word Representations in Vector SpaceDistributed Representations of Words and Phrases and their Compositionality基本介绍word2vec的基本思想是：利用相似的词具有相似的上下文这一思想，训练神经网络模型。模型的输入是某个词，输出是这个词的上下文。经
复制链接

扫一扫

专栏目录

代码拖拉鸡 CSDN认证博客专家 CSDN认证企业博客

码龄7年

68: 原创

5万+: 周排名

144万+: 总排名

16万+: 访问

: 等级

1952: 积分

94: 粉丝

198: 获赞

30: 评论

1460: 收藏

私信

关注

热门文章

分类专栏

最新评论

Pytorch实现Seq2Seq
qq_36971581: RNN是处理不同长度的序列，但你加了限制并且扩展了序列？这是否还有使用RNN的意义。
numpy之transpose详解
二十1: 可以终于看懂了
测试开发面试题汇总（自用）
qq_42887553: 大佬，有pdf嘛？
Pytorch实现Seq2Seq
yonsan_: 有点误人子弟了，根本不是seq2seq
Pytorch实现Seq2Seq
yonsan_: 有点误人子弟了，根本不是seq2seq

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。