文案生成论文速读

最新推荐文章于 2025-04-07 22:20:05 发布

Anida_qin

最新推荐文章于 2025-04-07 22:20:05 发布

阅读量557

点赞数

分类专栏：论文笔记 NLP

本文链接：https://blog.csdn.net/qq_20095389/article/details/102814716

版权

这篇博客主要探讨了两篇关于语言模型的论文，1. CTRL通过改变训练数据格式实现可控生成，2. GPT2提出使用无监督预训练模型进行有监督任务，并阐述了其核心思想和模型结构，揭示了NLP通用模型的发展趋势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎交流指正

1. CTRL - A Conditional Transformer Language Model for Controllable Generation

https://arxiv.org/pdf/1909.05858.pdf
模型应该没变，变得是训练数据的格式，会将数据分类，每一个分类变成比如， book x,y 或者wiki x, y。

2. GPT2 (转自 https://zhuanlan.zhihu.com/p/57251615)

GPT2的核心思想就是认为可以用无监督的预训练模型去做有监督任务。GPT2模型的结构还是和GPT一样，如上图中间部分，它所适用的任务恰好是语言模型，即预测 [公式] ，这是大家再熟悉不过的公式。那为什么这个就能做有监督任务呢？平常的套路难道不是语言模型预训练+微调吗？反正当时我是一脸懵逼的，反复看了两三遍才理透这个逻辑，下面我给大家梳理一下，如果这个思想懂了，那上面的问题就不是问题了。

按照原文的思路，作者是这样论述的：

- 语言模型其实也是在给序列的条件概率建模，即 [公式]
- 任何的有监督任务，其实都是在估计 [公式] ，通常我们会用特定的网络结构去给任务建模，但如果要做通用模型，它需要对 [公式] 建模。对于NLP任务的input和output，我们平常都可以用向量表示，而对于task，其实

最低0.47元/天解锁文章