2-11 演示：使用Pytorch训练模型

笨笨sg

已于 2023-11-12 15:19:58 修改

阅读量728

点赞数

分类专栏：清华NLP——刘知远团队大模型公开课（学习笔记）文章标签： pytorch 人工智能深度学习

于 2023-11-11 22:38:23 首次发布

本文链接：https://blog.csdn.net/a131529/article/details/134355135

版权

清华NLP——刘知远团队大模型公开课（学习笔记）专栏收录该内容

26 篇文章

订阅专栏

3.2.3 指定采用pytroch进行训练：

3.2.4 数据ID化（Corpus类）：

3.2.5 对数据进行分批处理，并构建模型和损失函数：

3.2.6 train函数（训练模型时的配置）：

1 深度学习训练模型步骤：

任何一个深度学习训练模型的流程都要按照如下步骤：

准备数据；
建立模型；
训练模型；
评估模型；
测试模型；
改进模型

2 训练目的：

使用PyTorch训练一个语言模型，目标是根据上文预测下一个单词，并在训练过程中评估模型在验证集和测试集上的性能。

我们选取的模式是LSTM模型，为了求得目标值和预测值之间的差距，我们选取Cross-entropy（交叉熵）作为损失函数。

3 训练步骤：

3.1 准备训练数据：

我们选取的训练数据来源于“维基百科”，并将其分割为训练集、验证集以及测试集。

3.2 main.py:

3.2.1 目的：

主函数，训练入口

3.2.2 parser模块：

简单理解就是为了进行全局参数配置。

argparse 模块是 Python 内置的一个用于命令项选项与参数解析的模块，argparse 模块可以让人轻松编写用户友好的命令行接口。通过在程序中定义好我们需要的参数，然后 argparse 将会从 sys.argv 解析出这些参数。argparse 模块还会自动生成帮助和使用手册，并在用户给程序传入无效参数时报出错误信息。

想要深入了解可以参考下面这个博客;

【精选】python之parser.add_argument()用法——命令行选项、参数和子命令解析器_parser.add_argument()参数_python-码博士的博客-CSDN博客

3.2.3 指定采用pytroch进行训练：

3.2.4 数据ID化（Corpus类）：

（1）构建一个语料库对象，其中包括一个词典和经过ID化处理的训练集、验证集和测试集数据：

（2）具体来讲，Corpus的具体操作是将文本文件进行分词和标记化处理：

首先，通过assert os.path.exists(path)进行断言，确保指定的文件路径存在。
接下来，通过打开文件并使用with语句来读取文件内容。对于文件中的每一行，将其拆分成单词，并在末尾添加'<eos>'，表示句子的结束。
然后，对于每个单词，调用self.dictionary.add_word(word)方法将其添加到语料库的词典中。如果词典中已经存在该单词，就直接获取其对应的ID，如果词典中不存在该单词，就将该单词添加到词典中，并分配一个新的ID给它。
接下来，重新打开文件，再次遍历每一行。对于每个单词，使用self.dictionary.word2idx[word]来获取其在词典中对应的ID，并将这些ID存储在ids列表中。
最后，将所有行的ID组成的列表idss使用torch.cat方法连接起来，并将结果存储在ids变量中。这样，ids就是整个文本文件中所有单词对应的ID序列。

3.2.5 对数据进行分批处理，并构建模型和损失函数：

（1）batchify的样式转化图：

如下图所示，这里的bsz就是4（也就是分为4组），每一列表示一组连续的数据。

（2）具体步骤：

函数接收两个参数，data和bsz。data是一个包含整型数据的张量，bsz表示每个批次的大小。
首先，通过计算data.size(0) // bsz，得到可以将数据集等分为多少个批次。
接下来，使用data.narrow(0, 0, nbatch * bsz)将数据集截取为能够整除bsz的大小。
然后，通过data.view(bsz, -1).t().contiguous()将数据重新组织为以bsz为行数的矩阵，并进行内存连续化处理。
最后，将处理后的数据转移到设备上，并将其作为函数的返回值。
在主代码中，使用batchify函数将训练集、验证集和测试集数据进行分批处理，并分别存储在train_data、val_data和test_data变量中。
接下来，使用len(corpus.dictionary)获取词典中的词语数量，用于构建模型。
如果args.model的值是'LSTM'，则使用model.RNNModel构造一个RNN模型，并将模型移动到设备上。（模型细节请参考下文的model.py）
然后，使用nn.CrossEntropyLoss()构建交叉熵损失函数，该函数用于计算训练的目标值。