AI大模型探索之路-认知篇2：探索OpenAI生态系统的基石

邹中凡

已于 2024-06-30 16:34:33 修改

阅读量26

点赞数

分类专栏： AI大模型文章标签：语言模型人工智能

于 2024-06-30 16:34:03 首次发布

原文链接：https://xundaomalu.blog.csdn.net/article/details/137383072

版权

AI大模型专栏收录该内容

6 篇文章 0 订阅

订阅专栏

前言
在讨论OpenAI的大模型时，大家耳熟能详的通常是ChatGPT3.5和ChatGPT4；然而实际上远不止于此，OpenAI公司在自然语言处理、计算机视觉等多个科技前沿领域，开发了一系列大型神经网络模型；这些模型覆盖了文本、代码、对话、语音、图像等多个维度。

一、语⾔类⼤模型
OpenAI的GPT系列大模型
GPT-3、GPT-3.5、GPT-4系列模型
OpenAI的A、B、C、D四项大模型
1）在训练GPT-3的同时，OpenAI还训练了参数和复杂度各异的A、B、C、D四个大模型（基座模型），用于不同场景的应用。
2）这四个模型的全称分别是：ada、babbage、curie和davinci。
3）需要注意的是，这四个模型并不是GPT-3的微调模型，而是独立训练的。
4）从A到D，这四个模型的参数规模和复杂程度依次递增。
5）虽然它们的知名度不如GPT-3.5和GPT-4，但A、B、C、D四大模型在OpenAI的大模型生态中功能最丰富，API种类最多。
二、图像大模型
图像多模态⼤模型：最新版为DALL·E（达利） v3，DALL·E 3目前支持根据提示创建具有特定尺寸的新图像的功能。DALL·E 2还支持编辑现有图像或创建用户提供的图像的变体的功能。

DALL·E模型为基于GPT-3开发的模型，总共包含120亿个参数，DALL·E对图像的理解能⼒源于⼤语⾔模型；
OpenAI将⼤语⾔模型的理解能⼒“复制”到视觉领域的核⼼⽅法是：将图像视作⼀种⼀种语⾔，将其转化为Token，并和⽂本Token⼀起进⾏训练；

三、语音识别模型
语⾳识别模型：最新版为Whisper v2-large model，是Whisper模型的升级版，能够执⾏多语⾔语⾳识别以及语⾳翻译和语⾔识别；
Whisper模型是为数不多的OpenAI的开源模型，改模型通过68万⼩时的多语⾔和多任务监督数据进⾏的训练，⽬前提供了原始论⽂进⾏⽅法介绍；
开源地址：https://github.com/openai/whisper
Whisper模型可以本地部署，也可以像其他OpenAI⼤模型⼀样通过调⽤API进⾏在线使⽤；官⽹介绍，Whisper在线模型会有额外运⾏速度上的优化，通过调⽤API进⾏使⽤，效率更⾼（需要⽀付⼀定的费⽤）；
四、语音合成模型
语音合成模型：TTS，他能够将文本转换为语音；目前最最新版分别为：tts-1（针对速度进行了优化），tts-1-hd （针对质量进行了优化）
支持的输出格式
1）默认响应格式为“mp3”，但也可以使用“opus”、“aac”、“flac”和“pcm”等其他格式。
2） Opus：用于互联网流媒体和通信，低延迟。
AAC：用于数字音频压缩，YouTube、Android、iOS 首选。
3） FLAC：用于无损音频压缩，受到音频爱好者存档的青睐。
4） WAV：未压缩的 WAV 音频，适合低延迟应用，以避免解码开销。
5） PCM：与 WAV 类似，但包含 24kHz 的原始样本（16 位有符号、低端），没有标头。
支持的语言
中文、英语、法语、德语、希腊语、意大利语、日语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语等等。
五、文本向量化模型
⽂本向量化模型：Embedding⽂本嵌⼊模型，⽤于将⽂本转化为词向量，即⽤⼀个数组（向量）来表示⼀个⽂本，该⽂本可以是短语、句⼦或者⽂章；
最新⼀代Embedding模型是基于ada模型微调的text-embedding-3-small和text-embedding-3-large
通过将⽂本转化为词向量，就可以让计算机进⼀步的“读懂⽂本”，通过词向量的计算和分析和相似度计算，可以对其背后的⽂本进⾏搜索、聚类、推荐、异常检测和分类等；

六、审查模型
审查模型：Moderation模型；旨在检查内容是否符合 OpenAI 的使⽤政策。这些模型提供了查找以下类别内容的分类功能：仇恨、仇恨/威胁、⾃残、性、性/未成年⼈、暴⼒和暴⼒/图⽚等。

七、编程大模型
编程⼤模型：Codex⼤模型，⽤GitHub数⼗亿⾏代码训练⽽成，能够“读懂”代码，并且能够根据⾃然语⾔描述进⾏代码创建；
Codex最擅⻓Python，同时精通JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL，甚⾄Shell 等⼗⼏种编程语⾔；
该模型发布于2021年8⽉10⽇，⽬前代码编写功能已经合并⼊GPT-3.5，官⽹显示该模型为已弃⽤（deprecated）状态，意为后续不再单独维护，但并不表示OpenAI已放弃编程⼤模型，相反越来越多的编程功能被集成到语⾔⼤模型中；
⽬前该模型集成于Visual Studio Code、GitHub Copilot、Azure OpenAI Service等产品中，⽤于提供⾃动编程功能⽀持；
八、API命名规范
通⽤模型API：如GPT-3.5-turbo，GPT-4，ada…
GPT-3、GPT-3.5、和GPT-4 被称为通用大模型主要是因为它们的设计和训练方法允许它们在多种不同的任务上表现出色，而不仅仅限于特定的领域。这些模型主要是以语言为基础的，通过学习大量的文本数据，它们能够理解和生成语言，完成包括文本生成、翻译、摘要、问答等多种语言处理任务
停⽌维护但仍可使⽤的API：如GPT-3.5-turbo-0613，GPT-4-0314…
⾯向特定功能的微调模型API：如ada-code-search-code（基于ada微调的编程⼤模型），babbage- similarity（基于babbage微调的的⽂本相似度检索模型）…
多版本编号模型API：如text-davinci-001（达芬奇⽂本模型1号）、text_x0002_embedding-ada-002（基于ada的Embedding模型2号）
总结
本章旨在深入剖析OpenAI大模型生态系统中，各个模型的独特属性和功能。通过深入的理解，为后续的大型模型开发与学习奠定坚实的基础。

邹中凡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI大模型探索之路-认知篇2：探索OpenAI生态系统的基石

中文、英语、法语、德语、希腊语、意大利语、日语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语等等。通过将⽂本转化为词向量，就可以让计算机进⼀步的“读懂⽂本”，通过词向量的计算和分析和相似度计算，可以对其背后的⽂本进⾏搜索、聚类、推荐、异常检测和分类等；5）虽然它们的知名度不如GPT-3.5和GPT-4，但A、B、C、D四大模型在OpenAI的大模型生态中功能最丰富，API种类最多。
复制链接

扫一扫

专栏目录