T5模型和GPT2模型初步对比

牛栓柱

已于 2023-11-20 05:17:23 修改

阅读量4.6k

点赞数 3

文章标签： python 深度学习神经网络自然语言处理语言模型

于 2021-11-05 07:01:44 首次发布

本文链接：https://blog.csdn.net/ruanqizhen/article/details/121069947

版权

T5模型和GPT2模型初步对比

之前试着用GPT2模型训练了一个诗词对联生成程序（训练诗词生成模型）。
这个周末初步试了一下用T5模型做同样的事，是想对比一下看看两个模型的区别。

这两种模型都是基于经典的 Transformer 模型该进来的，都比最初的 Transformer 强大复杂的多。最大的区别是 GPT2 只有解码器，T5 同时有编码器和解码器。理论上T5这种模型比较善于应对给定输入，产生对应的输出的应用：比如翻译，知识问答等。GPT2 比较善于自由创作，比如写一篇短文等。还有一类只有编码器的模型，擅长处理分类问题。但实际上，只要模型够强大，各种NPL问题都能用同一个模型就解决。（比如我在GPT3模型的网站上大致测试了一下它的功能，它在写作、翻译、对话、分类等各种应用中的表现都非常出色。）

T5模型总体上比GPT2模型大不少。我这次测试的是最小型的T5模型，但也比我上次测试的小型GPT2规模大了一倍以上。我用的是与训练GPT2模型大致相同的数据集。训练了个把小时。只对于T5这么庞大的模型来说，可能是有些不够的。所以我也就不做定量分析了，只大致比较一些GPT2和T5预测诗词的效果。

结果和我预想的差不多。T5的对联生成效果稍好于GPT2的效果；但是GPT2的诗词生成效果远好于T5。
T5这种模型非常适合给定上文然后生成相对固定的下文。比如用于中英翻译，上文是“我喜欢打游戏”，下文基本就可以确定为“I like to play video games”，最多用词上时态上稍有变化。这种对应关系是非常明确的。对联的上下联之间也是有比较明确的对应关系的。所以T5处理起来得心应手。GPT2模型生成对联时候，很明显越长的对联，越容易出错。GPT2模型可以明显的感觉到，它在生成新文字时候，更重视附近的单词的影响。这是可以理解的，在一篇文章里，关系越紧密的文字通常距离也越近。但是对于对联中的文字来说，影响最大的却不是附近的字，而是上联中对应位置的哪个字。那个字如果和当前的字间隔了十几个甚至几十个其它的字，GPT2的生成效果就会大受影响。
T5在这方面处理的更好。但是对联和翻译还是不太一样。在翻译任务中，上下文的对应关系十分明确。而一个上联是可以有非常多不同的对应下联的。在这种灵活性上，GPT2反而更有优势。总的来说，普通对联算是个相对简单的问题。T5模型处理的更好，但GPT2也够用了。至于涉及高级技巧的对联，比如拆字联、无情对等等，目前两个模型都还没办法处理好。

诗词生成难度比对联更大。所以总体来说，两个模型产生的效果都还有待提高。相对来说GPT2的结果更顺畅一些。我网页上演示的结果（https://www.qizhen.xyz/）也还是使用的 GPT2 模型。

接续摘录一些生成的结果：

东风吹绿柳，西日映红霞。
人家在何处，月影对芳华。

春风一缕柳丝柔，又见飞花入眼流。
不是东君都解意，只因明月误归舟。

西风吹叶归，秋老金菊黄。
霜寒衣袖凉，心冷梦魂长。

长河万里碧，远岫千峰青。山色横江眼，天光上晚星。
朝花香满袖，暮雨露盈庭。回首人生路，孤帆万里行。

红日正当年，欲乘东风追远梦；春光更好处，唯凭彩笔写新篇

其它乱七八糟的结果我就贴在这里了：
http://py.qizhen.xyz/