《动手学深度学习PyTorch版》打卡_Task2，文本预处理、语言模型、循环神经网络

最新推荐文章于 2024-07-12 20:42:58 发布

kanatappi

最新推荐文章于 2024-07-12 20:42:58 发布

阅读量192

点赞数

分类专栏：动手学深度学习PyTorch版 python 文章标签： pytorch

本文链接：https://blog.csdn.net/weixin_41662661/article/details/104310712

版权

动手学深度学习PyTorch版同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

python

3 篇文章 0 订阅

订阅专栏

最近参加了伯禹平台和Datawhale等举办的《动手学深度学习PyTorch版》课程，对文本预处理、语言模型、循环神经网络做下笔记。

文本预处理

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括以下几个个步骤：

读入文本
分词
统计词频，可以去掉一下低频词
引入一些特殊的token：
#pad:二维矩阵长度不一，短句子补token利用pad

#bos:开始token

#eos：结束token

#unk：未登录词当作unk
建立字典，将每个词映射到一个唯一的索引（index）,也可以通过index得到对应的词
将文本从词的序列转换为索引的序列，方便输入模型

def tokenize(sentences, token='word'):
    """Split sentences into word or char tokens"""
    if token == 'word':
        return [sentence.split(' ') for sentence in sentences]
    elif token == 'char':
        return [list(sentence) for sentence in sentences]
    else:
        print('ERROR: unkown token type '+token)

tokens = tokenize(lines)
tokens[0:2]
class Vocab(object):
    def __init__(self, tokens, min_freq=0, use_special_tokens=False):
        counter = count_corpus(tokens)  # : 
        self.token_freqs = list(counter.items())
        self.idx_to_token = []
        if use_special_tokens:
            # padding, begin of sentence, end of sentence, unknown
            self.pad, self.bos, self.eos, self.unk = (0, 1, 2, 3)
            self.idx_to_token += ['', '', '', '']
        else:
            self.unk = 0
            self.idx_to_token += ['']
        self.idx_to_token += [token for token, freq in self.token_freqs
                        if freq >= min_freq and token not in self.idx_to_token]
        self.token_to_idx = dict()
        for idx, token in enumerate(self.idx_to_token):
            self.token_to_idx[token] = idx

    def __len__(self):
        return len(self.idx_to_token)

    def __getitem__(self, tokens):
        if not isinstance(tokens, (list, tuple)):
            return self.token_to_idx.get(tokens, self.unk)
        return [self.__getitem__(token) for token in tokens]

    def to_tokens(self, indices):
        if not isinstance(indices, (list, tuple)):
            return self.idx_to_token[indices]
        return [self.idx_to_token[index] for index in indices]

def count_corpus(sentences):
    tokens = [tk for st in sentences for tk in st]
    return collections.Counter(tokens)  # 返回一个字典，记录每个词的出现次数

用现有工具进行分词

我们前面介绍的分词方式非常简单，它至少有以下几个缺点:

标点符号通常可以提供语义信息，但是我们的方法直接将其丢弃了
类似“shouldn't", "doesn't"这样的词会被错误地处理
类似"Mr.", "Dr."这样的词会被错误地处理

我们可以通过引入更复杂的规则来解决这些问题，但是事实上，有一些现有的工具可以很好地进行分词，我们在这里简单介绍其中的两个：spaCy和NLTK。

ext = "Mr. Chen doesn't agree with my suggestion."
#spaCy:

import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
print([token.text for token in doc])

['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']

#NLTK:

from nltk.tokenize import word_tokenize
from nltk import data
data.path.append('/home/kesci/input/nltk_data3784/nltk_data')
print(word_tokenize(text))

['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']

语言模型-n元语法（n-gram）

一段自然语言文本可以看作是一个离散时间序列，给定一个长度为T的词的序列w1,w2,…,wT，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：

P(w1,w2,…,wT).

例如，一段含有4个词的文本序列的概率：

P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3)

n元语法

序列长度增加，计算和存储多个词共同出现的概率的复杂度会呈指数级增加。n元语法通过马尔可夫假设简化模型，马尔科夫假设是指一个词的出现只与前面n个词相关，即n阶马尔可夫链（Markov chain of order n），如果n=1，那么有P(w3∣w1,w2)=P(w3∣w2)P(w3∣w1,w2)=P(w3∣w2)。基于n−1阶马尔可夫链，我们可以将语言模型改写。

当n分别为1、2和3时，我们将其分别称作一元语法（unigram）、二元语法（bigram）和三元语法（trigram）。例如，长度为4的序列w1,w2,w3,w4在一元语法、二元语法和三元语法中的概率分别为

P(w1,w2,w3,w4)=P(w1)P(w2)P(w3)P(w4),

P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3),

P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w2,w3).

当n较小时，n元语法往往并不准确。例如，在一元语法中，由三个词组成的句子“你走先”和“你先走”的概率是一样的。然而，当n较大时，n元语法需要计算并存储大量的词频和多词相邻频率。

思考：n元语法可能有哪些缺陷？

参数空间过大
数据稀疏

时序数据的采样

我们有两种方式对时序数据进行采样，分别是随机采样和相邻采样

随机采样

批量大小batch_size是每个小批量的样本数，num_steps是每个样本所包含的时间步数。在随机采样中，每个样本是原始序列上任意截取的一段序列，相邻的两个随机小批量在原始序列上的位置不一定相毗邻。

如系列[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29]以batch_size=2，num_steps=6进行随机采样得到的样本可能如下：

X1: 
[[ 6,  7,  8,  9, 10, 11],
[12, 13, 14, 15, 16, 17]]
Y1: 
[[ 7, 8, 9, 10, 11, 12],  
[13, 14, 15, 16, 17, 18]]
X2: 
[[ 0,  1,  2,  3,  4,  5],
[18, 19, 20, 21, 22, 23]] 
Y3: 
[[ 1,  2,  3,  4,  5,  6],
[19, 20, 21, 22, 23, 24]]

X1批次和X2批次就不相邻

相邻采样

在相邻采样中，相邻的两个随机小批量在原始序列上的位置相毗邻

X1:
[[ 0,  1,  2,  3,  4,  5],
[15, 16, 17, 18, 19, 20]]
Y1:
[[ 1,  2,  3,  4,  5,  6],
[16, 17, 18, 19, 20, 21]]

X2:
[[ 6,  7,  8,  9, 10, 11],
[21, 22, 23, 24, 25, 26]]
Y2:
[[ 7,  8,  9, 10, 11, 12],
[22, 23, 24, 25, 26, 27]]

X1批次和X2批次相邻

注意选择不同的采样方式在训练时的隐藏状态初始化时机也不同：

随机采样：在batch开始时初始化隐藏状态

相邻采样：在epoch开始时初始化隐藏状态，因为每个batch的数据都是相邻的

def train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,
                          vocab_size, device, corpus_indices, idx_to_char,
                          char_to_idx, is_random_iter, num_epochs, num_steps,
                          lr, clipping_theta, batch_size, pred_period,
                          pred_len, prefixes):
    if is_random_iter:
        data_iter_fn = d2l.data_iter_random
    else:
        data_iter_fn = d2l.data_iter_consecutive
    params = get_params()
    loss = nn.CrossEntropyLoss()

    for epoch in range(num_epochs):
        if not is_random_iter:  # 如使用相邻采样，在epoch开始时初始化隐藏状态
            state = init_rnn_state(batch_size, num_hiddens, device)
        l_sum, n, start = 0.0, 0, time.time()
        data_iter = data_iter_fn(corpus_indices, batch_size, num_steps, device)
        for X, Y in data_iter:
            if is_random_iter:  # 如使用随机采样，在每个小批量更新前初始化隐藏状态
                state = init_rnn_state(batch_size, num_hiddens, device)
            else:  # 否则需要使用detach函数从计算图分离隐藏状态
                for s in state:
                    s.detach_()
            # inputs是num_steps个形状为(batch_size, vocab_size)的矩阵
            inputs = to_onehot(X, vocab_size)
            # outputs有num_steps个形状为(batch_size, vocab_size)的矩阵
            (outputs, state) = rnn(inputs, state, params)
            # 拼接之后形状为(num_steps * batch_size, vocab_size)
            outputs = torch.cat(outputs, dim=0)
            # Y的形状是(batch_size, num_steps)，转置后再变成形状为
            # (num_steps * batch_size,)的向量，这样跟输出的行一一对应
            y = torch.flatten(Y.T)
            # 使用交叉熵损失计算平均分类误差
            l = loss(outputs, y.long())
            
            # 梯度清0
            if params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()
            l.backward()
            grad_clipping(params, clipping_theta, device)  # 裁剪梯度
            d2l.sgd(params, lr, 1)  # 因为误差已经取过均值，梯度不用再做平均
            l_sum += l.item() * y.shape[0]
            n += y.shape[0]

        if (epoch + 1) % pred_period == 0:
            print('epoch %d, perplexity %f, time %.2f sec' % (
                epoch + 1, math.exp(l_sum / n), time.time() - start))
            for prefix in prefixes:
                print(' -', predict_rnn(prefix, pred_len, rnn, params, init_rnn_state,
                    num_hiddens, vocab_size, device, idx_to_char, char_to_idx))