Meta AI新发布的超大规模语言模型-OPT-175B

mengrennwpu

已于 2022-05-05 08:31:19 修改

阅读量1.8k

点赞数 1

文章标签：语言模型人工智能自然语言处理 Transformer OPT-175B

于 2022-05-04 11:37:20 首次发布

本文链接：https://blog.csdn.net/MENGERN/article/details/124567874

版权

Meta AI在2022年5月3日新发布的OPT-175B模型，该模型是现阶段第一个模型参数超过千亿级别的开放模型，其次该模型与GPT-3相比，更加开放及便于访问。

具体开放性表现在如下几个方面：

1. 论文: 提供了某些能力是可能的存在证明，并揭示可以建立在此基础上的一般思想

2. API访问:允许研究人员探索和评估现有基础模型的能力(例如，推理)和局限性(例如，偏差)

3. 模型权重:允许研究人员逐步改进现有模型，开发更深入的可解释技术和更有效的微调方法

4. 训练数据:让研究人员更好地理解训练数据在模型行为中的作用——例如，情境学习从何而来?(不过，有些数据可能很难公布。)

5. 计算:允许研究人员尝试新的架构，培训目标/程序，进行数据集消融，并在不同领域开发全新的模型。这具有最大的理解和改进潜力，但也相当昂贵。

项目地址：https://github.com/facebookresearch/metaseq

论文地址：https://arxiv.org/pdf/2205.01068.pdf

请求访问权限地址：https://forms.gle/dag8g7nKiR4o4VZq5

以下为Meta AI官网的发布声明。

大型语言模型--具有超过 1000 亿个参数的自然语言处理 (NLP) 系统——在过去几年中改变了 NLP 和 AI 研究。基于大规模不同体量的文本训练，这些模型在生成创意文本、解决基本数学问题、回答阅读理解问题等方面表现出惊人能力。虽然在某些情况下，公众可以通过付费 API 与这些模型进行交互，但全部的研究访问权限仍然仅限于少数资源丰富的实验室中。这种受限访问限制了研究人员理解这些大型语言模型如何以及为什么工作的能力，阻碍了提高其稳健性和减轻类似偏见和危害性等已知问题的努力的进展。

根据 Meta AI 对开放科学的承诺，我们正在分享 Open Pretrained Transformer (OPT-175B)，一种在公开可用的数据集训练的具有 1750 亿个参数的语言模型，以允许更多的社区参与了解这项基础新技术。对于首次实现这种规模的语言技术系统，此次发布包括预训练模型以及训练和使用它们所需的代码。为了保持完整性并防止滥用，我们将在非商业许可下发布我们的模型，以专注于研究用例。该模型的访问权限将授予学术研究者，即隶属于政府、民间社会和学术界组织的人员，以及世界各地的工业研究实验室。

我们相信整个人工智能社区——学术研究人员、民间社会、政策制定者和工业界——必须共同努力，围绕负责任的人工智能制定明确的指导方针，特别是负责任的大型语言模型，因为它们在许多下游语言应用中处于中心地位。人工智能社区中更广泛的部分需要访问这些模型，以便进行可重复的研究并共同推动该领域的发展。随着 OPT-175B 和小规模基线的发布，我们希望增加定义此类技术伦理考虑的话语多样性。

OPT-175B 的责任发布

根据人工智能伙伴关系为研究人员制定的出版指南，以及NIST在2022年3月概述的治理指南(第3.4节)，我们发布了所有记录开发过程的笔记，包括详细描述日常训练过程的完整日志，以便其他研究人员可以更容易地在我们的工作基础上进行构建。此外，这些细节揭示了用于训练OPT-175B的计算量，以及当底层基础设施或训练过程本身在规模上变得不稳定时所需的人力开销。

我们正在共享 OPT-175B，以及仅使用 16 个 NVIDIA V100 GPU 来训练和部署模型的代码库，以增加这些模型的可访问性，专门用于研究目的，并为分析根植于可量化的潜在危害提供基础通用共享模型上的指标。我们还全面发布了一套更小规模的基线模型，在相同的数据集上进行训练，并使用与 OPT-175B 类似的配置，以使研究人员能够单独研究规模的影响。这些小规模模型的参数计数包括1.25亿、3.5亿、13亿、27亿、67亿、130亿和300亿（660亿即将发布）。

负责任的计算

人工智能研究的最新进展消耗了大量的计算能力。虽然行业实验室已经开始报告这些模型的碳足迹，但大多数不包括与实验的研发阶段相关的计算成本，在某些情况下，这可能比训练最终模型的资源密集型多一个数量级。

我们在开发OPT-175B时考虑到了能源效率，成功地训练了这种规模的模型，只使用了GPT-3的1/7的碳足迹。这是通过结合Meta的开源完全分片数据并行(FSDP) API和NVIDIA的张量并行抽象在Megetron-LM中实现的。我们在NVIDIA的80gb A100 GPU上实现了约147 TFLOP/s/GPU的利用率，比NVIDIA研究人员公布的在类似硬件上的利用率大约高17%。

通过共享这些基线和代码库来有效地训练175B模型，我们有机会减少我们集体的环境足迹，同时也允许以一致的方式测量该领域的新结果和进展。

通过开放合作推动研究向前发展

为了推进人工智能研究，更广泛的科学界必须能够与前沿模型合作，有效地探索它们的潜力，同时也探索它们的弱点。与我们之前的开放科学计划一样，如图像相似性挑战、深度造假检测挑战和可恶的表情包挑战，Meta AI认为，跨研究机构的合作对负责任的人工智能技术的发展至关重要。

虽然在大型语言模型领域有许多令人兴奋的发展，但这些模型所带来的限制和风险仍然没有被很好地理解。如果不能直接使用这些模型，研究人员为可能的危害设计检测和缓解策略的能力也有限，这使得检测和缓解工作只掌握在那些有足够资金使用这种规模模型的人手中。我们希望OPT-175B将为大型语言模型创建的前沿带来更多的声音，帮助社区共同设计负责任的发布策略，并为该领域的大型语言模型的开发增加前所未有的透明度和开放性。

在这里访问开放源代码和小规模预训练模型，在这里请求访问OPT-175B，在这里阅读论文。

预训练模型均根据OPT-175B许可协议进行许可。

mengrennwpu

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Meta AI新发布的超大规模语言模型-OPT-175B

Meta AI在2022年5月3日新发布的OPT-175B模型，该模型是现阶段第一个模型参数超过千亿级别的模型，其次该模型与GPT-3相比，更加开放及便于访问。具体开放性表现在如下几个方面：1.论文: 提供了某些能力是可能的存在证明，并揭示可以建立在此基础上的一般思想2.API访问:允许研究人员探索和评估现有基础模型的能力(例如，推理)和局限性(例如，偏差)3. 模型权重:允许研究人员逐步改进现有模型，开发更深入的可解释技术和更有效的微调方法4. 训练数据:让研究人员更好地理解训练数..
复制链接

扫一扫