NLP2: 读取长序列数据

最新推荐文章于 2024-10-12 21:52:05 发布

summermoonlight

最新推荐文章于 2024-10-12 21:52:05 发布

阅读量678

点赞数 1

文章标签：深度学习 python 机器学习

本文链接：https://blog.csdn.net/qq_45034517/article/details/124925417

版权

这篇博客介绍了如何在深度学习中对文本序列进行随机和顺序采样，以生成小批量数据用于模型训练。首先，通过随机偏移量将长文本划分为固定长度的子序列，然后采用两种采样方式：随机采样和顺序分区。随机采样允许每个小批量中的子序列随机分布在整个序列上，而顺序分区则确保相邻小批量的子序列在原始序列中是连续的。这两种方法都被封装到一个名为`SeqDataLoader`的迭代器类中，方便后续的数据处理和模型训练。

摘要由CSDN通过智能技术生成

模型中的⽹络⼀次处理具有预定义⻓度（例如 n 个时间步）的⼀个小批量序列。现在的问题是如何随机地⽣成
⼀个小批量数据的特征和标签以供读取。

⾸先，由于⽂本序列可以是任意⻓的，例如整本《时光机器》(The Time Machine)，于是任意⻓的序列可以被
我们划分为具有相同时间步数的⼦序列。这里我们假设网络只处理具有n=5个时间步的子序列，那么从原始文本中，获得子序列的方式如下有5种。即，我们可以rand一个偏移量，来指示初始的位置。

如果我们只选择⼀个偏移量，那么⽤于训练⽹络的、所有可能的⼦序列的覆盖范围将是有限的。因此，我们可以从随机偏移量开始划分序列，以同时获得覆盖性（coverage）和随机性（randomness）。
在这里插入图片描述

随机采样

在随机采样中，每个样本都是在原始的长序列上任意捕获的子序列
参数batch_size指定了每个小批量中子序列样本的数目，参数num_steps是每个子序列中预定义的时间步数

def seq_data_iter_random(corpus, batch_size, num_steps):  #@save
    """使用随机抽样生成一个小批量子序列"""
    # 从随机偏移量开始对序列进行分区，随机范围包括num_steps-1
    # 随机偏移量前面的那一点点文本就丢弃了
    corpus = corpus[random.randint(0, num_steps - 1):]
    # 减去1，是因为我们需要考虑标签（例如0~9是X，那么1~10就是Y。
    #那么当原文本长度只有10的时候，我们X的最大长度只能是9
    num_subseqs = (len(corpus) - 1) // num_steps
    # 长度为num_steps的子序列的起始索引
    initial_indices = list(range(0, num_subseqs * num_steps, num_steps))
    # 在随机抽样的迭代过程中，
    # 来自两个相邻的、随机的、小批量中的子序列不一定在原始序列上相邻
    random.shuffle(initial_indices)

    def data(pos):
        # 返回从pos位置开始的长度为num_steps的序列
        return corpus[pos: pos + num_steps]

    num_batches = num_subseqs // batch_size
    for i in range(0, batch_size * num_batches, batch_size):
        # 在这里，initial_indices包含子序列的随机起始索引
        initial_indices_per_batch = initial_indices[i: i + batch_size]
        X = [data(j) for j in initial_indices_per_batch]
        Y = [data(j + 1) for j in initial_indices_per_batch]
        yield torch.tensor(X), torch.tensor(Y)

下面我们生成一个从0到34的序列。假设批量大小为2，时间步数为5，这意味着可以生成 ⌊(35−1)/5⌋=6个“特征－标签”子序列对。如果设置小批量大小为2，我们只能得到3个小批量。

my_seq = list(range(35))
for X, Y in seq_data_iter_random(my_seq, batch_size=2, num_steps=5):
    print('X: ', X, '\nY:', Y)

在这里插入图片描述

顺序分区

保证两个相邻的小批量中的子序列在原始序列上也是相邻的

def seq_data_iter_random(corpus, batch_size, num_steps):  #@save
    """使用随机抽样生成一个小批量子序列"""
    # 从随机偏移量开始对序列进行分区，随机范围包括num_steps-1
    
    corpus = corpus[random.randint(0, num_steps - 1):]
    # 减去1，是因为我们需要考虑标签
    num_subseqs = (len(corpus) - 1) // num_steps
    # 长度为num_steps的子序列的起始索引
    initial_indices = list(range(0, num_subseqs * num_steps, num_steps))
    # 在随机抽样的迭代过程中，
    # 来自两个相邻的、随机的、小批量中的子序列不一定在原始序列上相邻
    random.shuffle(initial_indices)

    def data(pos):
        # 返回从pos位置开始的长度为num_steps的序列
        return corpus[pos: pos + num_steps]

    num_batches = num_subseqs // batch_size
    for i in range(0, batch_size * num_batches, batch_size):
        # 在这里，initial_indices包含子序列的随机起始索引
        initial_indices_per_batch = initial_indices[i: i + batch_size]
        X = [data(j) for j in initial_indices_per_batch]
        Y = [data(j + 1) for j in initial_indices_per_batch]
        yield torch.tensor(X), torch.tensor(Y)

在这里插入图片描述

合并

现在，我们将上面的两个采样函数包装到一个类中，以便稍后可以将其用作数据迭代器。

class SeqDataLoader:  #@save
    """加载序列数据的迭代器"""
    def __init__(self, batch_size, num_steps, use_random_iter, max_tokens):
        if use_random_iter:
            self.data_iter_fn = d2l.seq_data_iter_random
        else:
            self.data_iter_fn = d2l.seq_data_iter_sequential
        self.corpus, self.vocab = d2l.load_corpus_time_machine(max_tokens)
        self.batch_size, self.num_steps = batch_size, num_steps

    def __iter__(self):
        return self.data_iter_fn(self.corpus, self.batch_size, self.num_steps)

def load_data_time_machine(batch_size, num_steps,  #@save
                           use_random_iter=False, max_tokens=10000):
    """返回时光机器数据集的迭代器和词表"""
    data_iter = SeqDataLoader(
        batch_size, num_steps, use_random_iter, max_tokens)
    return data_iter, data_iter.vocab