深度学习入门-2（文本预处理，语言模型与数据集，循环神经网络）

最新推荐文章于 2024-03-28 10:58:11 发布

lyz21

最新推荐文章于 2024-03-28 10:58:11 发布

阅读量410

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/lyz21/article/details/104318394

版权

深度学习专栏收录该内容

15 篇文章 3 订阅

订阅专栏

深度学习入门-2（文本预处理，语言模型与数据集，循环神经网络）

一、文本预处理

这一节只是为下面处理自然语言做准备，没有任何深度学习方面的内容，利用一些基础算法将句子分词，并建立索引，基础好的可以直接略过。

1、基本概念

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，预处理通常包括四个步骤：

读入文本
分词
建立字典，将每个词映射到一个唯一的索引（index）
将文本从词的序列转换为索引的序列，方便输入模型

2、读入文本

import collections
import re

def read_time_machine():
    with open('/home/kesci/input/timemachine7163/timemachine.txt', 'r') as f:
        lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f]
    return lines


lines = read_time_machine()
print('# sentences %d' % len(lines))

输出：

 sentences 3221

3、分词

即将句子划分为若干词（token），换为一个词的序列：

def tokenize(sentences, token='word'):
    """Split sentences into word or char tokens"""
    if token == 'word':
        return [sentence.split(' ') for sentence in sentences]
    elif token == 'char':
        return [list(sentence) for sentence in sentences]
    else:
        print('ERROR: unkown token type '+token)

tokens = tokenize(lines)
tokens[0:2]

输出：

[['the', 'time', 'machine', 'by', 'h', 'g', 'wells', ''], ['']]

4、建立字典

为了方便模型处理，我们需要将字符串转换为数字。因此我们需要先构建一个字典（vocabulary），将每个词映射到一个唯一的索引编号。

class Vocab(object):
    def __init__(self, tokens, min_freq=0, use_special_tokens=False):
        counter = count_corpus(tokens)  # : 
        self.token_freqs = list(counter.items())
        self.idx_to_token = []
        if use_special_tokens:
            # padding, begin of sentence, end of sentence, unknown
            self.pad, self.bos, self.eos, self.unk = (0, 1, 2, 3)
            self.idx_to_token += ['', '', '', '']
        else:
            self.unk = 0
            self.idx_to_token += ['']
        self.idx_to_token += [token for token, freq in self.token_freqs
                        if freq >= min_freq and token not in self.idx_to_token]
        self.token_to_idx = dict()
        for idx, token in enumerate(self.idx_to_token):
            self.token_to_idx[token] = idx

    def __len__(self):
        return len(self.idx_to_token)

    def __getitem__(self, tokens):
        if not isinstance(tokens, (list, tuple)):
            return self.token_to_idx.get(tokens, self.unk)
        return [self.__getitem__(token) for token in tokens]

    def to_tokens(self, indices):
        if not isinstance(indices, (list, tuple)):
            return self.idx_to_token[indices]
        return [self.idx_to_token[index] for index in indices]

def count_corpus(sentences):
    tokens = [tk for st in sentences for tk in st]
    return collections.Counter(tokens)  # 返回一个字典，记录每个词的出现次数

5、将词转为索引

使用字典，我们可以将原文本中的句子从单词序列转换为索引序列

for i in range(8, 10):
    print('words:', tokens[i])
    print('indices:', vocab[tokens[i]])

输出：

words: ['the', 'time', 'traveller', 'for', 'so', 'it', 'will', 'be', 'convenient', 'to', 'speak', 'of', 'him', '']
indices: [1, 2, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 0]
words: ['was', 'expounding', 'a', 'recondite', 'matter', 'to', 'us', 'his', 'grey', 'eyes', 'shone', 'and']
indices: [20, 21, 22, 23, 24, 16, 25, 26, 27, 28, 29, 30]

二、语言模型与数据集

自然语言文本可以看作是一个离散时间序列，语言模型的目标就是评估一个给定长度为T的词的序列是否合理，即计算该序列的概率：
在这里插入图片描述

1、语言模型基本概念

假设序列中的每个词w1,w2…wt都是依次生成的，则有：
在这里插入图片描述
其中w1的概率计算为：

其中n(w1)为语料库中以作为第一个词的文本的数量，n为语料库中文本的总数量。给定w1情况下，w2的条件概率可以计算为：

其中为n(w1,w2)为语料库中以w1作为第一个词，w2作为第二个词的文本的数量

2、马尔可夫链与n元语法

马尔科夫假设是指一个词的出现只与前面n个词相关，即n阶马尔可夫链（Markov chain of order n）,n元语法是通过马尔可夫假设简化模型。基于n-1阶马尔可夫链，可将语言模型改写为：
在这里插入图片描述
以上也叫n元语法（n-grams），它是基于n-1阶马尔可夫链的概率语言模型。当n分别为1、2和3时，我们将其分别称作一元语法（unigram）、二元语法（bigram）和三元语法（trigram）。
例如，长度为4的序列在一元语法、二元语法和三元语法中的概率分别为
在这里插入图片描述
n元语法缺陷有参数空间过大和数据稀疏。

2、数据集——对时序数据采样

随机采样
随机采样中，每个样本是原始序列上任意截取的一段序列，相邻的两个随机小批量在原始序列上的位置不一定相毗邻，批量大小batch_size是每个小批量的样本数，num_steps是每个样本所包含的时间步数。随机采样示例图：
相邻采样
在相邻采样中，相邻的两个随机小批量在原始序列上的位置相毗邻。相邻采样示例图：

相邻采样按列抽取，可转化为二维矩阵看：

三、循环神经网络

使用循环计算的网络即循环神经网络（recurrent neural network）。

1、循环神经网络的基本概念

循环神经网络目的：基于当前的输入与过去的输入序列，预测序列的下一个字符。即以过去输入的字符序列为样本学习，基于当前的输入预测序列的下一个字符。
循环神经网络语言模型：
在这里插入图片描述
隐藏变量H，用H(t)表示H在时间步t的值（t时刻H的值）。H(t)的计算基于X(t)和H(t-1)，可以认为H(t)记录了到当前字符为止的序列信息，利用H(t)对序列的下一个字符进行预测。

2、循环神经网络的构造

在这里插入图片描述
nd矩阵X(t)是时间步t的小批量输入,nh矩阵H(t)是该时间步的隐藏变量，W(x)(h)是dh矩阵，W(h)(h)是hh矩阵，b(h)是1*h矩阵各参数经过激活函数变换后得到H(t)。由于的计算H(t)基于H(t-1)，所以上式的计算是循环的，即循环神经网络。
在时间步t，输出层的输出为：
在这里插入图片描述