词向量介绍以及Word2Vec的pytorch实现

词向量

在自然语言处理任务中,首先需要考虑字、词如何在计算机中表示。通常,有两种表示方式:one-hot表示和分布式表示

  • one-hot表示
    把每个词表示为一个长向量。这个向量的维度是词表大小,向量中只有一个维度的值为1,其余维度为0,这个维度就代表了当前的词。 例如:苹果 [0,0,0,1,0,0,0,0,···] 。one-hot表示不能展示词与词之间的关系,且特征空间非常大。
  • 分布式表示
    word embedding指的是将词转化成一种分布式表示,又称词向量。分布式表示将词表示成一个定长的连续的稠密向量。

分布式表示优点:

(1) 词之间存在相似关系:是词之间存在“距离”概念,这对很多自然语言处理的任务非常有帮助。

(2) 包含更多信息:词向量能够包含更多信息,并且每一维都有特定的含义。在采用one-hot特征时,可以对特征向量进行删减,词向量则不能。

NNLM和word2vec

  • 不像图像,其本身输入到计算机中是矩阵,矩阵里的数字就隐含了其各种各样的特征,这些特征可以通过模型去学习和捕捉。而文本的输入,是字符串,这是计算机处理不了的,所以当初人们首先想到的就是独热编码,第一是这样就可以将文本转化为数字,计算机能进行处理;第二就是每个词都可以独一无二的被表示。但是这种表示丢失了词的一个很重要的特征,即语义。为了进行语义信息,联想到了分布式表示,分布式表示一个很重要的核心思想是:语义相近的词在高维度上是相互接近的。这里用一个简单的例子来感受一下分布式表示的魅力:

比如,我们要表示三样东西“红色的正三角形”,“红色的圆正方形”,“绿色的正三角形”,如果用one-hot编码表示,则分别为[1,0,0],[0,1,0],[0,0,1]。可以发现若这样表示,三个向量在三维空间上彼此正交,其之间的潜在特征将会因为这样的表示而消失。若我们在3维空间上,第一个维度空间表示颜色(红色0绿色1),第二个维度空间上表示圆和正(正0圆1),第三个维度空间上表示形状(三角形0正方形1),那么此时这三个向量可以表示为[0,0,0],[0,1,1],[1,0,0],我们发现,这三个向量彼此之间就存在了联系,若在来一个“绿色的圆三角形”,我们也可以轻松的表示为 [1,1,0],而不是独热编码的所有向量由三维变成四维。这也是独热编码的另一个致命缺陷,数据过于稀疏。

Word2Vec

2013 年,Google 团队发表了 word2vec 工具。word2vec 工具主要包含两个模型:跳字模型(skip-gram)和连续词模型(continuous bag of words,简称 CBOW),以及两种高效训练的方法:负采样(negative sampling)层序 softmax(hierarchical softmax)。值得一提的是,word2vec 词向量可以较好地表达不同词之间的相似度和类比关系。

skip-gram:是根据目标词去预测周围词来训练得到词向量
CBOW:是根据上下文取预测目标词来训练得到词向量
在这里插入图片描述

skip-gram

例如,给定文本序列 “the”,“man”,“hit”,“his”,“son”。设背景窗口大小为 2, 跳字模型所关心的是,给定 “hit”,生成它邻近词 “the”,“man”.“his”,“son” 的概率(在这个例子中,“hit” 叫中心词,“the”,“man”,“his”,“son” 叫背景词),即
P ( c o n t e x t ( w t ) ∣ w t ) P(context(w_t)|w_t) P(context(wt)wt) P ( t h e , m a n , h i s , s o n ∣ h i t ) P(the,man,his,son|hit) P(the,man,his,sonhit)假设在给定中心词的情况下,背景词的生成是相互独立的,那么上式可以改写成 P ( t h e ∣ h i t ) ⋅ P ( m a n ∣ h i t ) ⋅ P ( h i s ∣ h i t ) ⋅ P ( s o n ∣ h i t ) P(the|hit)·P(man|hit)·P(his|hit)·P(son|hit) P(thehit)P(manhit)P(hishit)P(s

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是使用 PyTorch 实现 Word2Vec 的基本步骤: 1. 数据预处理:将原始文本数据转换为神经网络可以理解的形式。可以使用 NLTK 等自然语言处理库来进行分、去停用等操作。 2. 构建神经网络模型:Word2Vec 通常使用两种架构模型:CBOW(Continuous Bag of Words)和 Skip-gram。CBOW 模型从上下文中预测中心,Skip-gram 模型从中心预测上下文。这里以 Skip-gram 为例。 3. 定义损失函数:Word2Vec 的目标是最大化向量之间的相似度,可以使用 softmax 函数和交叉熵作为损失函数。 4. 训练模型:使用反向传播算法和随机梯度下降法来更新模型的参数,使得损失函数最小化。 下面是一个简单的 PyTorch 实现代码: ``` import torch import torch.nn as nn import torch.optim as optim class SkipGram(nn.Module): def __init__(self, vocab_size, embedding_dim): super(SkipGram, self).__init__() self.embeddings = nn.Embedding(vocab_size, embedding_dim) self.linear = nn.Linear(embedding_dim, vocab_size) def forward(self, center_word): center_embed = self.embeddings(center_word) out = self.linear(center_embed) log_probs = nn.functional.log_softmax(out, dim=1) return log_probs # 定义数据和超参数 data = ['I', 'love', 'NLP', 'and', 'deep', 'learning'] vocab_size = len(set(data)) embedding_dim = 10 batch_size = 1 learning_rate = 0.001 # 定义模型、损失函数和优化器 model = SkipGram(vocab_size, embedding_dim) criterion = nn.NLLLoss() optimizer = optim.SGD(model.parameters(), lr=learning_rate) # 训练模型 for epoch in range(100): for i in range(len(data)): center_word = torch.tensor([i]) log_probs = model(center_word) loss = criterion(log_probs, torch.tensor([i])) optimizer.zero_grad() loss.backward() optimizer.step() # 获取向量 word_embeddings = model.embeddings.weight.detach().numpy() ``` 这个实现很简单,只能处理单个语,处理文本需要使用更复杂的方法。需要注意的是,Word2Vec 训练需要大量的数据和计算资源,特别是在大规模语料库上训练时。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值