动手学深度学习之词嵌入基础及进阶

最新推荐文章于 2024-08-15 09:36:21 发布

water19111213

最新推荐文章于 2024-08-15 09:36:21 发布

阅读量753

点赞数 1

文章标签：自然语言处理机器学习深度学习

本文链接：https://blog.csdn.net/water19111213/article/details/104491841

版权

本文介绍了词嵌入的基础概念，包括Word2Vec的Skip-Gram模型和负采样近似。通过PTB数据集展示了词嵌入的训练过程，并探讨了GloVe全局向量的词嵌入模型。文章还提供了求近义词和类比词的方法，利用预训练的GloVe向量进行示例操作。

摘要由CSDN通过智能技术生成

参考伯禹学习平台《动手学深度学习》课程内容内容撰写的学习笔记
原文链接：https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/lesson/vPFktupNxTK8CzV789PCeV
感谢伯禹平台，Datawhale，和鲸，AWS给我们提供的免费学习机会！！
总的学习感受：伯禹的课程做的很好，课程非常系统，每个较高级别的课程都会有需要掌握的前续基础知识的介绍，因此很适合本人这种基础较差的同学学习，建议基础较差的同学可以关注伯禹的其他课程：
数学基础：https://www.boyuai.com/elites/course/D91JM0bv72Zop1D3
机器学习基础：https://www.boyuai.com/elites/course/5ICEBwpbHVwwnK3C

词嵌入基础

我们在“循环神经网络的从零开始实现”一节中使用 one-hot 向量表示单词，虽然它们构造起来很容易，但通常并不是一个好选择。一个主要的原因是，one-hot 词向量无法准确表达不同词之间的相似度，如我们常常使用的余弦相似度。

Word2Vec 词嵌入工具的提出正是为了解决上面这个问题，它将每个词表示成一个定长的向量，并通过在语料库上的预训练使得这些向量能较好地表达不同词之间的相似和类比关系，以引入一定的语义信息。基于两种概率模型的假设，我们可以定义两种 Word2Vec 模型：

Skip-Gram 跳字模型：假设背景词由中心词生成，即建模 $P(w_o\mid w_c)$ ，其中 $w_c$ 为中心词， $w_o$ 为任一背景词；

Image Name

CBOW (continuous bag-of-words) 连续词袋模型：假设中心词由背景词生成，即建模 $P(w_c\mid \mathcal{W}_o)$ ，其中 $\mathcal{W}_o$ 为背景词的集合。

Image Name

在这里我们主要介绍 Skip-Gram 模型的实现，CBOW 实现与其类似，读者可之后自己尝试实现。后续的内容将大致从以下四个部分展开：

PTB 数据集
Skip-Gram 跳字模型
负采样近似
训练模型

import collections
import math
import random
import sys
import time
import os
import numpy as np
import torch
from torch import nn
import torch.utils.data as Data

PTB 数据集

简单来说，Word2Vec 能从语料中学到如何将离散的词映射为连续空间中的向量，并保留其语义上的相似关系。那么为了训练 Word2Vec 模型，我们就需要一个自然语言语料库，模型将从中学习各个单词间的关系，这里我们使用经典的 PTB 语料库进行训练。PTB (Penn Tree Bank) 是一个常用的小型语料库，它采样自《华尔街日报》的文章，包括训练集、验证集和测试集。我们将在PTB训练集上训练词嵌入模型。

载入数据集

数据集训练文件 ptb.train.txt 示例：

aer banknote berlitz calloway centrust cluett fromstein gitano guterman ...
pierre  N years old will join the board as a nonexecutive director nov. N 
mr.  is chairman of  n.v. the dutch publishing group 
...

with open(’/home/kesci/input/ptb_train1020/ptb.train.txt’, ‘r’) as f:
lines = f.readlines() # 该数据集中句子以换行符为分割
raw_dataset = [st.split() for st in lines] # st是sentence的缩写，单词以空格为分割
print(’# sentences: %d’ % len(raw_dataset))

#对于数据集的前3个句子，打印每个句子的词数和前5个词
#句尾符为 ‘’ ，生僻词全用 ‘’ 表示，数字则被替换成了 ‘N’
for st in raw_dataset[:3]:
print(’# tokens:’, len(st), st[:5])

建立词语索引

counter = collections.Counter([tk for st in raw_dataset for tk in st]) # tk是token的缩写
counter = dict(filter(lambda x: x[1] >= 5, counter.items())) # 只保留在数据集中至少出现5次的词

idx_to_token = [tk for tk, _ in counter.items()]
token_to_idx = {tk: idx for idx, tk in enumerate(idx_to_token)}
dataset = [[token_to_idx[tk] for tk in st if tk in token_to_idx]
for st in raw_dataset] # raw_dataset中的单词在这一步被转换为对应的idx
num_tokens = sum([len(st) for st in dataset])
‘# tokens: %d’ % num_tokens

二次采样

文本数据中一般会出现一些高频词，如英文中的“the”“a”和“in”。通常来说，在一个背景窗口中，一个词（如“chip”）和较低频词（如“microprocessor”）同时出现比和较高频词（如“the”）同时出现对训练词嵌入模型更有益。因此，训练词嵌入模型时可以对词进行二次采样。具体来说，数据集中每个被索引词 $w_i$ 将有一定概率被丢弃，该丢弃概率为

P(w_i)=\max(1-\sqrt{\frac{t}{f(w_i)}},0)

其中 $f(w_i)$ 是数据集中词 $w_i$ 的个数与总词数之比，常数 $t$ 是一个超参数（实验中设为 $10^{−4}$ ）。可见，只有当 $f(w_i)>t$