AIGC领域进展及国内外大模型概述
AIGC领域进展
1. 人工智能生成内容(AIGC)
AIGC指的是人工智能生成内容(Artificial Intelligence Generative Content),通过自然语言让AI帮助创作各类内容,包括图片、视频、音乐、文字等。
主要技术包括:
- XLM(跨模态语言模型):
- LLM (Large Language Model) - 超参数数量大于7B的语言模型
- SLM (Small Language Model) - 超参数数量小于7B的语言模型
- VLM (Vision-Language Model) - 视觉语言模型
- Video-Language Model - 视频语言模型
- MLLM (Multimodal Large Language Model) - 多模态大语言模型
- 扩散模型 (Diffusion Model) - 生成图像和视频
2. AIGC的应用领域
AIGC的主要应用集中在文字类创作,特别擅长以下领域:
- 各种语言之间的翻译
- 长篇大论的机器阅读与总结
- 各种命题作文的撰写
3. 推理模型
2024年9月,OpenAI发布了O系列推理模型,推动了文理分科的发展。推理模型擅长创作逻辑推理、数学和代码生成等理工科领域的内容。
4. 图像生成模型
- 图片生成领域大部分AI模型支持文字生成图像和以图生图,主要应用于logo设计、插画设计等创意性较强的领域。
5. 音频与视频生成
随着技术的进步,大型音频与视频生成模型逐渐问世,能够满足部分C端用户需求,并预计未来能满足B端生产需求。
国外大模型概述
1. 综合类大模型
- ChatGPT (OpenAI)
- 链接: https://chatgpt.com
- 最新版本: GPT-4.5,推理模型O3-mini-high。
- Claude (Anthropic)
- 链接: https://claude.ai
- 最新版本: Claude 3.7 Sonnect。
- Gemini (Google)
- 链接: https://gemini.google.com
- 最新版本: Gemini 2.0 Pro Experimental。
- Grok (xAI)
- 链接: https://grok.x.ai
- 最新版本: v3.0。
- Mistral (Mistral AI)
- 链接: https://mistral.ai
- 最新版本: v2.0。
2. 图片生成模型
- Midjourney: https://www.midjourney.com
- DALL·E 3: https://openai.com/dall-e-3
- Imagine with Meta AI: https://imagine.meta.com
- Imagen 3: https://deepmind.google/technologies/imagen-3/
3. 音频生成模型
- Stable Audio: https://www.stableaudio.com
- MuseNet: https://openai.com/research/musenet
- Suno AI: https://suno.ai
4. 视频生成模型
- Gen-3: https://app.runwayml.com
- Pika: https://www.pika.art
- Veo: https://deepmind.google/technologies/veo/
国内大模型概述
1. 综合类大模型
- 深度求索
- 链接: http://www.deepseek.com
- 最新版本: 3.0版语言模型,推理模型R1。
- 智谱清言
- 链接: https://chatglm.cn
- 最新版本: 4.0,支持文字、图片和视频理解。
- 字节豆包
- 链接: https://www.doubao.com
- 最新版本: 2.0,擅长K12教育领域。
- 腾讯元宝
- 链接: https://yuanbao.tencent.com
- 最新版本: 2.5,加入深度阅读和RAG搜索功能。
- 海螺AI
- 链接: https://hailuoai.com
- 主打出海C端用户。
- 文心一言
- 链接: https://yiyan.baidu.com
- 最新版本: 4.0 Turbo。
2. 视频生成模型
-
快手可灵: https://kling.kuaishou.com
- 支持文生视频、图生视频、首尾帧生成视频等。
-
像素跳动: https://console.volcengine.com
- 支持多种复杂指令执行。
-
智谱清影: https://chatglm.cn/video
- 支持视频风格、情感氛围、运镜方式等。
3. 图片生成模型
-
快手可图: https://kolors.kuaishou.com
- 支持文生图和AI形象定制。
-
像素跳动: https://console.volcengine.com
- 支持复杂的图像生成。
开源大模型
1. 综合类
- Llama
- 链接: https://llama.meta.com/llama3/
- 最新版本: 3.2。
- Mistral
- 链接: https://mistral.ai/
- 最新版本: Mixtral-of-Expert-22B。
- Gemma
- 链接: https://gemma3.google.com
- 最新版本: 3.0。
- DBRX
- 链接: https://databricks.com
- 最新版本: 132B参数MoE模型。
- Nemotron-4 340B
- 链接: https://www.nvidia.com
- 最新版本: 340B模型。
2. 图片生成模型
-
Flux.1: https://github.com/black-forest-labs/flux
- Stable Diffusion团队离职成员开发。
-
Stable Diffusion: https://stability.ai/stable-diffusion/
- 文生图潜在扩散模型。
总结
经过两年多的发展,国内外大模型在多个领域持续进步,尤其在推理、图像、视频和多模态领域展现出巨大的潜力。国内大模型在缩小与国外差距的同时,特别在推理和多模态领域逐渐追赶上来,未来发展前景广阔。
国内外知名大模型及应用列表(2025/03/12)