点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
本文来自 AMiner AI
1. GPT-4V(ision) System Card
✦
✦
✦
✦
论文介绍了 GPT-4V(ision) 系统卡,它使用户能够指导 GPT-4 分析用户提供的图像输入。将额外的模态(如图像输入)纳入大型语言模型(LLM)被认为是人工智能研究和开发的关键前沿。多模态 LLM 提供了扩大仅语言系统影响的可能性,通过新颖的界面和功能,使它们能够解决新任务并为用户提供新体验。在这篇论文中,作者分析了 GPT-4V 的安全性属性。GPT-4V 的训练于 2022 年完成,并于 2023 年 3 月开始向早期用户提供访问。GPT-4 是 GPT-4V 视觉能力背后的技术,其训练过程相同。预训练模型首先使用大型互联网文本和图像数据以及许可数据集训练来预测文档中的下一个单词。然后,使用一种名为强化学习人类反馈(RLHF)的算法,用额外的数据进行微调,以产生人类培训师更喜欢输出。大型多模态模型与基于文本的语言模型相比,引入了不同的限制,并扩大了风险表面积。GPT-4V 具有每个模态(文本和视觉)的局限性和能力,同时呈现出源自所述模态之间交叉和大型模型赋予的智能推理的新兴能力。这篇系统卡概述了 OpenAI 如何为部署准备 GPT-4 的视觉能力。它描述了小规模用户早期访问模型的时期以及 OpenAI 从这段时期获得的安全经验,用于部署研究的多模态评估,专家红队的关键发现以及 OpenAI 在广泛发布之前实施的缓解措施。
链接:https://www.aminer.cn/pub/6512b48a80b4415e7a3267dc/?f=wx阅读原文
2. GPT-4 Technical Report
✦
✦
✦
✦
本篇论文介绍了GPT-4的开发过程。GPT-4是一种大规模的多模态模型,可接受图像和文本输入,并生成文本输出。尽管在许多现实场景中不如人类,但GPT-4在各种专业和学术基准测试中表现出人类水平的表现,包括在模拟的律师考试中得分在前10%的测试人员之间。GPT-4是一种基于Transformer的模型,经过预训练以预测文档中的下一个标记。后向训练过程导致在事实准确性和符合期望行为方面的性能提高。该项目的核心组成部分是开发在各种规模上具有预测性行为的基础架构和优化方法。这使我们能够基于使用不超过GPT-4计算量的模型准确预测GPT-4的某些方面的表现。
链接:https://www.aminer.cn/pub/641130e378d68457a4a2986f/?f=wx阅读原文
3. Training language models to follow
instructions with human feedback
✦
✦
✦
✦
这篇论文展示了如何使用人类反馈来训练语言模型以遵循用户指示的方法,该方法可以用于多种任务。在此之前,较大的语言模型可能会生成不准确或不有用的输出,因为它们没有与用户意图对齐。为了解决这一问题,该方法使用 supervised 学习和 reinforcement learning from human feedback(RLHF) 来训练语言模型。该方法名为 InstructGPT,它使用人类反馈来进一步微调 GPT-3 模型。在人类评估中,尽管 InstructGPT 的参数数量是 GPT-3 的 100 倍,但输出结果被偏好于 GPT-3 的输出。此外,InstructGPT 模型在输出 truthfulness 和减少毒性方面取得了改善,同时在许多公共自然语言处理数据集上的性能几乎没有下降。尽管 InstructGPT 仍然存在一些简单的错误,但该方法表明,使用人类反馈来训练语言模型是一个有前途的方向,可以帮助语言模型更好地遵循用户指示。
链接:https://www.aminer.cn/pub/61f50e3ad18a2b03dd0e7489/?f=wx阅读原文
4. Evaluating Large Language Models Trained on Code
✦
✦
✦
✦
本论文介绍了一种名为 Codex 的 GPT 语言模型,该模型是从 GitHub 上公开可用的代码中训练出来的,并研究了其在编写 Python 代码方面的能力。论文还介绍了一个生产版本的 Codex,它被用于 GitHub Copilot 的生产环境中。在人类评估 (HumanEval) 测试中,Codex 解决了 28.8% 的问题,而 GPT-3 和 GPT-J 分别解决了 0% 和 11.4% 的问题。此外,论文还发现重复采样是该模型生成有效解决方案的出人意料的有效策略。使用该策略,使用 100 个样本解决每个问题,可以将解决率提高至 70.2%。但对该模型的仔细研究也揭示了其局限性,包括难以处理包含长操作链和绑定操作的 docstrings。最后,论文讨论了部署强大代码生成技术的潜在影响,包括安全性、安全性和经济学方面的影响。
链接:https://www.aminer.cn/pub/60e7be6891e011dcbc23b0a0/?f=wx阅读原文
5. WebGPT: Browser-assisted question-answering
with human feedback
✦
✦
✦
✦
这篇论文描述了如何使用 Web 浏览器辅助问答任务,该任务是基于 GPT-3 模型进行训练的。通过使用文本式浏览器环境,该模型可以搜索和导航互联网以回答长问题。通过设置任务使得它易于由人类完成,可以使用 imitation learning 训练模型,并在人类反馈的指导下优化答案质量。为了更容易地评估事实准确性,模型在浏览支持答案时必须收集参考文献。我们使用 ELI5 数据集对模型进行训练和评估,该数据集是由 Reddit 用户提出的问题。我们的最佳模型是通过行为克隆进行微调,并使用训练预测人类偏好的 reward 模型进行拒绝采样。该模型的答案被人类 56% 的时间选择为最佳答案,比人类示范答案高 69% 的时间,比 Reddit 上最高投票的答案高 69% 的时间。
链接:https://www.aminer.cn/pub/61bff4285244ab9dcb79c82c/?f=wx阅读原文
6. Language Models are Few-Shot Learners
✦
✦
✦
✦
这篇论文讨论了语言模型在少量样本学习方面的表现。通过使用大规模文本预训练语言模型,然后在特定任务上进行微调,已经取得了在许多自然语言处理任务和基准上的重大进展。然而,与人类相比,这种方法仍然需要数千或数十万个任务特定样本来进行微调。本文表明,通过增加语言模型的规模,可以提高任务无关的少量样本表现,有时甚至可以与之前的最先进的微调方法竞争。具体而言,本文训练了具有 175 亿参数的自回归语言模型 GPT-3,是之前非稀疏语言模型的 10 倍,并测试了其在少量样本条件下的表现。对于所有任务,GPT-3 在没有梯度更新或微调的情况下应用,仅通过文本交互指定任务和少量样本演示。GPT-3 在多个自然语言处理数据集上取得了出色的表现,包括翻译、问答和填空任务,以及一些需要实时推理或领域适应的任务,如单词解码、在句子中使用一个新单词、进行 3 位数算术。同时,我们也发现了一些数据集上 GPT-3 的少量样本学习仍然遇到困难,以及一些数据集上 GPT-3 面临与大规模 Web 数据集相关的方法和伦理问题。最后,我们发现 GPT-3 可以生成人类难以区分是否由人类撰写的新闻文章,并讨论了这种方法及其对 GPT-3 的更广泛的社会影响。
链接:https://www.aminer.cn/pub/5ed0e04291e011915d9e43ee/?f=wx阅读原文
7. Assessment of Empirical Troposphere Model GPT3
Based on NGL's Global Troposphere Products
✦
✦
✦
✦
这篇论文评估了基于 Nevada Geodetic Laboratory 的全球 Troposphere 数据集的 GPT3 经验性 Troposphere 模型的性能。该模型是 GPT 系列模型的最新版本,用于预测全球 16,000 多个站点的 Troposphere 数据。由于数据集大、时间跨度长和站点分布广泛,该研究使用了平均偏差 (BIAS) 和均方根误差 (RMS) 作为指标,分析经验性模型的时空特性。实验结果表明:(1)NGL 的 Troposphere 产品与 IGS 产品具有相同的精度,可以用于评估一般 Troposphere 模型。(2)GPT3 预测的 ZTD(垂直总延迟) 全球平均偏差为 -0.99cm,全球平均均方根误差为 4.41cm。模型的准确性与纬度和椭球高度高度密切相关,表现出明显的季节性变化。(3)GPT3 预测的北梯度和东梯度全球平均均方根误差分别为 0.77mm 和 0.73mm,它们高度相关,从赤道向低纬度和高纬度逐渐增加或减少。
链接:https://www.aminer.cn/pub/5efdb2d09fced0a24b637f77/?f=wx阅读原文
8. Learning to summarize from human feedback
✦
✦
✦
✦
这篇论文探讨了在语言模型变得越来越强大的情况下,训练和评估特定任务的数据和方法对训练和评估的影响。例如,摘要生成模型经常训练以预测人类参考摘要,并使用 ROUGE 等指标进行评估,但这些指标只是我们真正关心的摘要质量的粗略代理。在这篇论文中,我们表明通过训练模型以优化人类偏好,可以显著提高摘要质量。我们收集了一个高质量的人类比较摘要的大规模数据集,并使用该数据集训练模型以预测人类偏好。然后我们使用该模型作为奖励函数,通过强化学习微调摘要生成政策。我们应用于 Reddit 帖子的 TL;DR 数据集,发现我们的模型在表现上远远优于人类参考摘要和仅使用监督学习微调的更大模型。我们的模型还可以应用于 CNN/DM 新闻文章,生成几乎与人类参考摘要相同的摘要,而不需要任何特定的新闻微调。我们对数据集和微调的模型进行了深入分析,确定我们的奖励模型适用于新数据集,优化我们的奖励模型比优化 ROUGE 根据人类偏好提供更好的摘要。我们希望我们的研究证据能激励机器学习研究人员更关注他们的训练损失如何影响他们真正想要的行为。
链接:https://www.aminer.cn/pub/5f5356f991e0110c40a7bc3b/?f=wx阅读原文
9. The Radicalization Risks of GPT-3 and
Advanced Neural Language Models
✦
✦
✦
✦
本论文探讨了 GPT-3 和高级神经网络语言模型的激进化风险。通过对不同极端叙事、社交互动和激进意识形态的提示进行实验,我们发现 GPT-3 在生成极端文本方面比 GPT-2 有显著提高。我们还展示了 GPT-3 能够准确地模拟交互、信息和有影响力的内容,这些内容可能被用于激进化个人并使其陷入暴力极端主义思想和行为。尽管 OpenAI 的预防措施较强,但未经监管的类似技术可能大规模在线激进化和招募,因此,在没有保护措施的情况下,成功且高效的武器化可能需要较少的实验即可实现。AI 利益相关方、政策制定者和政府机构应该尽快投资建立社会规范、公共政策和教育计划,以预防机器生成的虚假信息和宣传的涌入。减轻措施需要有效的政策和行业、政府和社会的合作。
链接:https://www.aminer.cn/pub/5f61dc3891e011fae8fd69dc/?f=wx阅读原文
10. Can GPT-3 Pass a Writer’s Turing Test?
✦
✦
✦
✦
这篇论文探讨了自然语言生成领域近期的发展历程,以及 GPT-3 等大规模统计语言模型的最新进展。过去的技术依赖于正式的语法系统和小型统计模型,并使用大量的启发式规则进行语言重写。然而,这些旧技术相当有限且容易出错,只能生成简短的、不连贯的语言,或者在特定主题下与人类进行对话。近年来,大规模统计语言模型的发展已经戏剧性地推动了该领域的发展,GPT-3 就是其中一个例子。它可以不需要显式编程或规则,而是通过重复接触语言来学习语言规则。与人类孩子一样,GPT-3 通过大规模接触来学习语言,尽管规模更大。由于没有显式规则,它有时在最简单的语言任务上表现不佳,但也可以在更复杂的任务上表现出色,例如模仿作者或进行哲学讨论。
链接:https://www.aminer.cn/pub/5fc0d8f09e795e733881396e/?f=wx阅读原文
11. Fine-Tuning Language Models
from Human Preferences
✦
✦
✦
✦
这篇论文研究了如何将人类偏好应用于自然语言处理任务,以提高语言模型的性能。在文章中,作者们利用人类问题回答的方式来构建奖励模型,以此方式将强化学习应用于四个自然语言处理任务中,包括情感持续文本和描述性文本,以及 TL;DR 和 CNN/Daily Mail 数据集的摘要生成任务。对于情感持续文本任务,作者们利用人类评估的 5,000 个比较来训练模型,取得了良好的结果。对于摘要生成任务,使用 60,000 个比较训练的模型会复制输入文本中的整个句子,并跳过无关的 preamble,这种做法获得了合理的 ROUGE 得分,并且被人类标记者认为表现非常好,但这可能是利用人类标记者依赖简单启发式这个事实的结果。
链接:https://www.aminer.cn/pub/5d835fd63a55ac583ecde807/?f=wx阅读原文
12. Language Models are Unsupervised
Multitask Learners
✦
✦
✦
✦
这篇论文展示了自然语言处理任务,如问答、机器翻译、阅读理解和总结,通常需要通过监督学习在特定的 task-specific 数据集上学习。但是,作者们在训练名为 WebText 的新数据集上数百万网页的语言模型时,发现这些语言模型开始在没有明确监督的情况下学习这些任务。当条件为文档和问题时,语言模型在 CoQA 数据集中生成的答案达到了 55 F1,超过了三个基线系统的得分,而且没有用超过 127,000 个训练示例。作者们还发现,语言模型的容量是成功实现零式任务转移的关键因素,并且增加容量可以在所有任务上提高表现,以一种 log-linear 方式改善表现。最大的模型 GPT-2 是一个具有 1.5 亿参数的 Transformer,在零式背景下取得了在七个测试语言建模数据集上的最佳状态,但在 WebText 上仍然表现不佳。这些发现为建造从自然出现演示中学习任务的自然语言处理系统提供了一条有前途的路径。
链接:https://www.aminer.cn/pub/5f8eab549e795e9e76f6f69e/?f=wx阅读原文
13. Improving language understanding
by generative pre training
✦
✦
✦
这篇论文讨论了如何提高自然语言理解能力。虽然大量的无标签文本数据库普遍存在,但针对特定任务的学习需要大量的标记数据,这使得区分性训练模型在处理这些任务时难以胜任。为了解决这个问题,该论文提出了一种名为“生成预训练”的方法,通过在多样化的无标签文本数据库上进行生成预训练,然后针对每个特定任务进行区分性微调。与以前的策略不同,在微调期间,该论文使用任务相关的输入变换来实现有效的迁移,而只需要对模型架构进行轻微的更改。该论文展示了这种方法在一系列自然语言理解基准任务上的有效性。该通用任务无关模型在 12 个自然语言理解任务中优于专门设计为每个任务的细胞,在 9 个任务中取得了最先进的结果。例如,我们实现了在常识推理 (Stories Cloze Test) 任务中 absolute 8.9% 的提升,在问答 (RACE) 任务中实现了 5.7% 的提升,在文本包含 (MultiNLI) 任务中实现了 1.5% 的提升。
链接:https://www.aminer.cn/pub/5f8eab579e795e9e76f6f6a0/?f=wx
往期精彩文章推荐
关注我们 记得星标
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1300多位海内外讲者,举办了逾600场活动,超600万人次观看。
我知道你
在看
哦
~
点击 阅读原文 查看!