国家互联网办公室于8月最新披露的数据显示,截至目前,已成功通过国家级备案的人工智能大模型数量达到了令人瞩目的188家 。此外,地方网信部门也积极行动,登记在册的AI大模型数量达到了26家。
本文罗列了大模型完整清单、常用大模型的特点以及国内大模型发展趋势。文末附完整清单下载链接。点个赞吧~
滑动查看188+26家完整名单
这展现了大模型领域的快速发展,造就了百家争鸣的景象。如下介绍常用的大模型及其优缺点:**
- 百度——文心一言**
特点与技术:文心一言是百度推出的知识增强型对话语言模型,拥有千亿级参数量,在知识问答、创意生成等任务上表现出色。它具备跨模态、跨语言的深度语义理解与生成能力。
优点:能够听懂复杂提示词,胜任代码理解与调试任务,支持图像生成和处理、语音合成与识别、视频数据处理等。
缺点:在某些特定领域的专业性上可能需要进一步提升。
擅长应用场景:搜索问答、内容创作生成、智能办公、客户服务、教育等。
- 科大讯飞——星火大模型
特点与技术:星火大模型是科大讯飞推出的AI大模型,支持对话、写作、编程等功能,还能提供语音交互方式。它具备跨语言、跨领域的知识理解和推理能力。
优点:技术先进,审核速度快,代码解释能力强。
缺点:写代码能力有待提高。
擅长应用场景:知识学习与内容创作、科研任务、数学问题解决、代码生成与调试、多模态交互(如图片描述、音频视频生成)等。
- 阿里云——通义千问
特点与技术:通义千问是阿里达摩院推出的大模型,拥有千亿参数,可用于智能问答、知识检索、文案创作等场景。它具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等核心能力。
优点:强大的灵活性和适应性,支持长文本输入,降价后性价比极高。
缺点:可能在某些特定场景下的精度和效率有待提升。
擅长应用场景:金融、医疗、教育、物流等多个行业,作为AI辅助工具提升工作效率和智能化水平。
- 字节跳动——豆包
特点与技术:豆包是字节跳动为创作者打造的AI助手,支持视频脚本撰写、文案生成、营销策划等。它具备聊天机器人、写作助手、英语学习助手等功能。
优点:价格极低,企业市场定价具有竞争力,预置了英语学习助手和写作助手两个功能。
缺点:可能在某些高级功能上相对简单。
擅长应用场景:知识问答、文本生成、语言翻译、逻辑推理、对话交流等。
- 智谱华章——智谱清言
特点与技术:智谱清言是智谱华章自研的AI大模型,融合海量知识,可用于商业分析、决策辅助、客户服务等领域。它基于万亿字符的文本与代码预训练,采用有监督微调技术。
优点:中英双语对话模型,功能全面。
缺点:可能在某些特定行业的适应性上需要进一步提升。
擅长应用场景:工作、学习和日常生活,为用户提供智能化服务。
- 腾讯——混元
特点与技术:腾讯混元是腾讯AI Lab自研的大规模预训练生成语言模型,擅长开放域聊天、内容创作、知识问答等。它基于Transformer架构,拥有万亿级别参数。
优点:接入微信搜一搜、搜狗搜索等搜索引擎,提供个性化智能体创建体验。
缺点:可能在特定领域的专业性上需要进一步提升。
擅长应用场景:支持多格式文档解析、AI头像、口语陪练、超能翻译等。
- 商汤——商量SenseChat
特点与技术:商量SenseChat是商汤科技推出的多模态对话交互平台,利用视觉、语言等技术,提供沉浸式人机交互体验。它具备卓越的自然语言处理能力、多轮对话与超长文本理解能力等。
优点:全面性与领先性、易用性与便捷性,持续进化与学习、灵活性与适应性。
缺点:可能在高负载或复杂场景下的稳定性上需要加强。
擅长应用场景:智能助手与日常生活、客户服务与咨询、教育学习、媒体与娱乐、编程与开发等。
- 天工AI
特点与技术:天工AI是昆仑万维在AI领域的旗舰产品,以其强大的核心能力和广泛的应用场景著称。它采用MoE专家混合模型架构,响应速度快,训练及推理效率高。
优点:支持超长上下文窗口,功能强大。
缺点:可能在某些特定领域的应用上需要进一步优化。
擅长应用场景:图文对话、知识问答、生成式搜索等。
- 百川智能——百川大模型
特点与技术:百川大模型由前搜狗公司CEO王小川创立,发布了Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型。它在多个权威评测榜单均名列前茅。
优点:技术领先、高效稳定、开放开源、灵活定制、持续迭代。
缺点:可能在商业化应用方面需要更多的市场验证。
擅长应用场景:知识问答、文本创作,多语言支持,上下文处理和与搜索引擎深度融合。
- 360——360安全大模型
特点与技术:360安全大模型以AI安全为核心,推出了以AI安全为核心的大模型安全解决方案,为企业构建合规、可信、可靠的大模型服务。它由攻击检测、运营处置、追踪溯源、知识管理、数据保护、代码安全等六大专家子模型组成。
优点:覆盖安全领域的多个场景,如安全情报分析、威胁检测与研判、应急处置等,满足不同企业的安全需求。
缺点:可能在特定领域的专业性和深度上仍有提升空间。
擅长应用场景:安全情报分析、威胁检测与研判、应急处置等。
有潜力的大模型
除了上述大模型外,还有一些有潜力的大模型值得关注,如:
华为云——盘古大模型:华为基于Transformer架构打造的超大规模人工智能模型,具有万亿级别参数,可以在图像、语音、自然语言处理等领域进行应用。
小米——MiLM-6B:小米的自然语言处理模型,具有高度的可扩展性和灵活性,能够处理大规模数据和复杂任务。
中科院自动化研究所的紫东太初:紫东太初是一款跨模态通用人工智能平台,参数达到千亿级别,支持视觉、文本、语音等多种模态,并基于全栈国产化基础软硬件平台建立。紫东太初已在多个行业实现广泛应用落地,如文本创作、医疗、物流、政务等。
Minimax的ABAB大模型:Minimax凭借自研实力,推出了包含多个模态(如文本到视觉、文本到语音、文本到文本)的基础模型架构,并成功推出了自研通用大模型“ABAB”,展现了其在多模态处理方面的潜力。
月之暗面: 核心产品是基于千亿大模型的chatbot——Kimi Chat。该产品自发布之初就明确了“长文本”、“自研闭源”、“toC”等特色标签,支持超长无损上下文处理,体现了其在大模型技术上的突破。
国内大模型行业落地的现况
近年来,国内大模型行业发展迅猛,已成为人工智能领域的热点。根据多个权威报告和数据显示,大模型在金融、医疗、智能制造等多个领域均实现了应用落地。未来可期。
金融行业:金融行业因其数字化程度高、商业化应用场景潜在价值高等优势,成为大模型落地应用的重要领域。多家金融机构利用大模型进行投资决策、风险管理等,显著提高了业务效率和准确性。
医疗领域:在医疗领域,大模型通过训练医疗影像数据,提高了疾病诊断的准确性和效率。同时,大模型还被用于辅助制定个性化治疗方案,为患者提供更加精准的治疗建议。
智能制造:在智能制造领域,大模型通过实时监控和分析生产数据,优化生产流程和提高生产效率。例如,盘古大模型在钢铁行业的应用,显著降低了生产调整时间,提高了预测精度和钢板成材率。
工业软件:多家上市公司如鼎捷软件、京东方、科大讯飞等已拓展大模型在工业领域的应用,工业大模型正逐步从小规模商业应用向规模化复制和推广阶段迈进。
国内大模型优势
全产业链覆盖:我国拥有庞大的产业规模,涵盖联合国产业分类中的全部工业门类,为大模型的落地提供了肥沃土壤。
政策支持:政府持续出台相关政策措施,支持大模型行业的发展,为大模型的研发和应用提供了有力保障。
技术创新:国内企业在大模型技术上不断创新,推出了多款具有竞争力的产品,如百度文心一言、阿里通义大模型、科大讯飞星火认知大模型等。
场景多样化:大模型的应用场景不断拓展,从当前的业务类场景向决策管理场景深入,应用于更多行业和领域。
挑战
技术门槛高:大模型的研发、训练和优化需要巨大的计算资源和专业人才,技术门槛较高。
数据隐私和安全:大模型在处理大量数据时,如何保障数据隐私和安全成为亟待解决的问题。数据泄露、隐私侵犯以及模型被恶意利用的风险都需要行业内外共同关注和解决。
模型可解释性不足:尽管大模型在性能上表现优异,但其内部机制复杂,决策过程难以被人类理解和解释,这在一定程度上限制了其在一些高风险领域的应用。
高额成本:大模型的训练和推理过程需要消耗大量的计算资源,导致高能耗和成本。高昂的投入成本限制了大模型的广泛应用。
认知不足与预期过高:市场对大模型行业应用的认知存在不足或预期过高的现象,这对大模型的实际应用落地造成了一定的阻碍。
前景
随着技术的不断进步和数据的不断积累,国内大模型行业将迎来更加广阔的发展前景。
技术创新持续:企业和科研机构将加大投入,推动大模型技术的持续创新和发展,提升模型性能和应用场景。
产业链协同发展:上下游企业将加强合作,共同推动大模型行业的发展,形成完整的产业链生态体系。
政策支持加强:政府将继续出台相关政策措施,支持大模型行业的发展,为大模型的研发和应用提供更加有利的环境。
应用场景拓展:大模型的应用场景将不断拓展,从当前领域向更多行业和领域渗透,为经济社会发展做出更大贡献。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
