人工智能编程:如何学习自然语言中的词嵌入(词向量)?

  人工智能专栏打折中

  (此处已添加圈子卡片,请到今日头条客户端查看)词向量

  在nlp领域,我们需要使用一个向量来表示一个词语,常用的就是one-hot向量,但是这样的向量表示有一定的问题,这个问题就是具有相同意思的词语在向量上并不能体现出相似的感觉,我们需要的是对于这种词性相近的词,我们需要他们的向量表示也能够相近。

  如何训练?

  那么我们如何才能够训练出这样的词向量呢?我们可以训练一个RNN的语言模型,然后在此过程中训练出一个嵌入矩阵,这个嵌入矩阵我们可以使用pytorch层中的Embedding层来表示,假如字典中有10000个词,我们想要训练出300维度的词向量,我们可以设置mbedding(10000, 300),这样当我们进行梯度下降的时候,我们就可以学习到长为10000,宽为300的一个嵌入矩阵,这个嵌入矩阵是Embedding层的参数,这个就是我们想要的那个嵌入矩阵,这个嵌入矩阵就是这10000个词的词向量,之后我们就可以根据字典的定义顺序来获取到指定词的词向量了。

  过程

  现在我们先来定义一个词典,假如字典中只有两个单词huan、feng:

  dict={'huan': 0 , 'feng': l}

  然后我们定义embedding层,字典中有两个单词,每个单词的维度是10

  embeds=nn.Embedding(2,10)

  假如这个层中已经训练好了,那么也就是说嵌入矩阵已经训练好了,那么我们就可以获取到字典中指定词的词向量了,其实就是embedding层的参数。

  代码实现

  import torch

  from torch import nn

  dict={'huan': 0 , 'feng': 1}

  embeds=nn.Embedding(2,5)

  #获取huan的词向量

  index=torch.LongTensor([dict['huan']])#获取huan的索引

  vector=embeds(index)

  

  那么如何才能训练出这样的嵌入矩阵呢?

  和之前的飞机流量一样,我们可以使用前两个词来预测第三个词,本例中我们并没有使用RNN模型,所以我们并不用将其构建成一个序列数据,我们可以将前两个词当作是特征,然后第三个词当作是标签,这样就可以从一句话中构建出多个样本,我们通过前两个词来预测第三个词是什么,这一过程中我们可以学到最终的嵌入矩阵。

  数据处理

  现在我们有一段话是莎士比亚的话,为了方便操作,我们将其转变成列表

  

  现在我们构建数据集,样本的形式就是前两个单词作为样本特征,然后第三个词作为样本的标签

  

  

  每一个样本的格式是这样的

  #((第一个词,第二个词),第三个词)

  现在样本有了,现在我们构建字典,在构建字典之前我们先去除全日制重复的元素,然后构建字典

  

  创建模型

  Embedding层很特殊,当创建Embedding层的时候,我们需要指定两个参数,第一个参数是嵌入矩阵中词的个数vocab_size,第二个参数是词向量的维度n_dim。

  我们将数据喂给embedding层的时候,维度可以任意,输出为喂给embeding的数据维度context_size*词向量的维度n_dim,所以后面的全连接层需要是context_size*n_dim,不然没有办法连接,最后再接上一个全连接层输出为vocab_size,也就是词向量的个数,也就是说这个模型是一个分类问题,根据前两个词确定第三个词的类别,当对第三个词预测成功之后,那么embeding层学习到的参数矩阵就是我们所需要的嵌入矩阵。

  下面开始训练

  注意我们输入的到神经网络中并不是词,而是这个词对应字典中的索引编号,比如输入为两个词,tensor([35,85]),而标签为tensor([48]),都是数字,而不是具体的字,这个需要注意。当我们训练好模型之后,我们就可以使用训练好的embeding层来获取想要词的词向量。

  

  如上所示我们可以获取clock的词向量

  

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值