2023：人工智能年

sunghosts

已于 2024-03-28 13:53:26 修改

阅读量35

点赞数

分类专栏：机器学习文章标签：人工智能

于 2024-03-28 13:52:47 首次发布

原文链接：https://journal.everypixel.com/2023-the-year-of-ai

版权

机器学习专栏收录该内容

36 篇文章 2 订阅

订阅专栏

今年的人工智能领域主要侧重于渐进式改进，而非突破性创新。图像生成技术如AdobeFirefly和Midjourney的升级，以及视频生成工具如StableVideoDiffusion，展示了技术的稳步发展。文本生成领域，Bard和Grok等模型增强了交互性和情感表达。同时，自主人工智能代理和开源模型如Mistral7B推动了行业标准的提升。

摘要由CSDN通过智能技术生成

人工智能的进步

在今年的人工智能进步领域，取得了显着的进展，改进了现有技术，而不是引入类似于前一年的 ChatGPT 或图像生成器的突破性创新。虽然没有令人惊叹的效果，而且真正的通用人工智能 (AGI) 还很遥远，但今年标志着之前的突破和即将到来的更强大的东西之间的中间阶段。为了展示这一演变，我们精心制作了一个视觉时间表，突出显示了塑造今年人工智能的最显着的人工智能进步：
在这里插入图片描述

图像生成

Adobe Firefly： Adobe 的 Firefly 和 Generative Fill 支持多样化的视觉内容创作，包括插图、艺术概念和照片处理。 Adobe Firefly集成到 Photoshop 中，使 AI 大众化，立即将其力量扩展到广泛的用户群。文本效果功能的发布也标志着一个重大进步，允许用户将样式或纹理应用于单词和短语。
Midjourney： Midjourney 的 V.5 模型标志着图像生成领域的一个里程碑，展示了更高的效率、一致性和更高的分辨率。最新的 alpha 版本Midjourney V.6带来了额外的增强功能，例如更准确的提示跟随、增加的模型知识和较小的文本绘制能力。
DALL·E 3： DALL·E 3 基于 ChatGPT 构建，简化了图像生成，无需复杂的提示工程。此外，ChatGPT还引入了一项功能，可以帮助用户完善提示并根据反馈进行图像调整。
Shutterstock.AI： 库存图片巨头集成了人工智能功能，允许用户将提示转换为许可就绪的图像。 Shutterstock 通过表彰和奖励有贡献的艺术家，在道德人工智能领域迈出了第一步。

视频生成

Stability AI： Stability AI 推出了 Stable Video Diffusion，这是一种开创性的生成视频模型，可在 GitHub 上进行开源访问。与人工智能图像生成趋势相似，稳定视频扩散模型很可能在大部分人工智能生成视频的创建中发挥关键作用。
HeyGen： 人工智能初创公司推出了一款用于语音克隆、嘴唇运动调整和视频语言翻译的工具。
Runway Gen-2： Runway 推出了 Gen-2 模型，使用户能够轻松地从文本提示、图像或其他视频生成完整的视频。看看下面的例子。
**Pika 和 Pika 1.0：**随着最初的发布，Pika 获得了 50 万用户，每周生成数百万个视频。随后Pika 1.0中升级的AI模型使用户能够创建和编辑各种风格的视频，包括3D动画、动漫、卡通和电影。
Meta 的编解码器头像： Meta 的用于视频中 3D 人脸的像素编解码器头像 (PiCA) 模型使我们更接近照片级真实感远程呈现。

文本生成

Bard 和 Gemini： Google 的 Bard 在聊天机器人领域添加了类人的情感和情感。谷歌的 Gemini被引入巴德聊天机器人并在多模式数据集上进行训练，成为“最有能力”的人工智能模型，也是 OpenAI 的 ChatGPT 的最接近的竞争对手。
Grok： Elon Musk 的初创公司 xAI通过推出“Grok” ——一个幽默、叛逆、通过 𝕏 平台提供实时知识的聊天机器人，标志着对人工智能开发的承诺，并有可能与 OpenAI 竞争。 xAI 承诺 Grok旨在回答其他人工智能系统拒绝的挑衅性问题。
OverflowAI： Stack Overflow 的 OverflowAI 增强了知识管理，支持在 Visual Studio Code 和 Slack 中通过 AI 搜索相关答案。
Llama 2： Meta 发布了 Llama 2，这是其下一代开源大型语言模型，展示了增强的效率。 Meta 经过微调的 LLM 还针对对话用例进行了优化，并且在大多数基准测试中都优于其他开源模型。
GPT-4： OpenAI 的 GPT-4 现在可以处理图像输入、生成字幕、分类、在来回对话中收听和响应，并支持实时网页浏览。 OpenAI 还扩展了对插件的支持，培育了一个充满开源竞争对手的环境。 GPT-4 是 OpenAI 开发 AGI 之旅的下一步。
Mistral 7B： Mistral AI 今年估值约20亿美元，发布了Mistral 7B，这是一个挑战GPT-4和Claude 2的大型语言模型。Mistral AI强调开放的技术方法，提供免费下载其模型。
Mixtral 8x7B： Mistral AI 还推出了 Mixtral 8x7B，这是一种具有开放权重的高质量稀疏混合专家模型 (SMoE)，具有 46.7B 总参数，开创了模型的开放性，增强了真实性并减少了偏差。
Yi-34B llm： 今年估值为 10 亿美元，李开复的初创公司01.AI 发布了 Yi-34B，这是一种开源神经网络，其参数数量显着高于竞争模型，强调了其成本效益。

其他进步：

Segment Anything Model (SAM)： Meta AI 提出了 SAM，这是一种无需额外训练即可“切出”图像中物体的分割模型，强调了其适应性。 SAM 在庞大的数据集上进行了训练，展示了其在对象分割方面的强大性能。
直接偏好优化（DPO）： DPO 是一种稳定且高效的方法，用于微调大规模无监督语言模型和教学文本到图像模型。它无需复杂的人类反馈强化学习（RLHF）即可实现精确控制。
Zephyr LM 对齐的直接蒸馏： Zephyr-7B是蒸馏直接偏好优化 (dDPO) 的结果，为具有 7B 参数的聊天模型设定了基准，无需大量训练即可增强意图对齐。
自主人工智能代理： 自主人工智能代理已成为一种显着趋势，展示了向先进和自主人工智能系统的变革性转变。人工智能代理被认为是 AGI 的第一眼，因为它们可以根据用户的目标生成自我指导的任务和指令，并自主地处理它们，直到实现目标。
EvoDiff： 微软的 EvoDiff是一个开源 AI 框架，用于快速且节省成本的蛋白质生成，有望在治疗和工业应用方面取得进步。
稳定音频： Stability AI 推出了一款工具，可以根据简单的文本提示生成简短的高质量音频剪辑。
GPT Store、Copyright Shield、ChatGPT Bot Constructor： OpenAI 推出了 GPT Store 来销售定制 GPT 机器人、Copyright Shield 来支付与版权侵权索赔相关的法律费用，以及用于定制 ChatGPT 版本的无代码平台。
Stability AI 开源了其法学硕士： Stability AI 开源了其模型StableLM-Alpha 和 Stable Vicuna，这些模型以其在生成文本和代码方面的令人印象深刻的性能而闻名。 Stable Vicuna 是第一个使用人类反馈强化学习 (RLHF) 进行训练的开源聊天机器人。此外，Stability AI 还推出了 SDXL Turbo，一种实时文本到图像生成模型。

sunghosts

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2023：人工智能年

在今年的人工智能进步领域，取得了显着的进展，改进了现有技术，而不是引入类似于前一年的 ChatGPT 或图像生成器的突破性创新。虽然没有令人惊叹的效果，而且真正的通用人工智能 (AGI) 还很遥远，但今年标志着之前的突破和即将到来的更强大的东西之间的中间阶段。
复制链接

扫一扫