摘要
2025年10月19日全球AI动态涵盖多领域:国内讯飞星火、蚂蚁Ling-1T等模型突破,字节Self-Forcing++实现4分钟长视频生成;国外OpenAI、Anthropic有模型动作;英伟达Blackwell芯片本土化,同时涉及伦理监管、行业观点及应用落地,整体呈现技术突破与商业化并行态势。
一、模型与技术突破
1.1 通用大模型
1.1.1 大语言模型
a. 国内
- 蚂蚁集团:发布万亿参数通用模型Ling-1T,基于MoE架构和CloudMatrix384技术,上架华为云MaaS平台,支持专属资源部署,在代码生成、数学推理领域性能突出;推出扩散语言模型推理框架dInfer,开源且为业内首个高性能该类框架,基准测试中推理速度比英伟达Fast-dLLM快10.7倍,HumanEval代码生成任务达1011个Tokens/秒,首次实现扩散语言模型推理超传统自回归模型。
- 科大讯飞:讯飞星火大模型获专利金奖,回声消除技术提升响应速度30%;X1版本基于全国产算力训练,低能耗高效运算,中文数学能力测试国内首位;4.0 Turbo版本在14项国际测试中9项第一,数学解题能力超越GPT-4o;医疗领域大模型在疾病诊断准确率、治疗方案推荐等6大维度超越GPT-4,赋能晓医APP实现个性化健康管理;支持12000+场景文案创作,独创“要点生成”功能。
- 阿里巴巴:开源Qwen3-VL-Flash视觉语言模型,结合推理与非推理模式,支持256K超长上下文,增强图像/视频理解、2D/3D定位、OCR及多语言识别能力;同步开源Qwen3Guard安全对齐模型(Qwen3-4B-SafeRL)及评估基准Qwen3GuardTest,提升复杂场景安全性与视觉智能。
- 智谱AI前COO张帆:创业项目获天使轮融资,蓝驰创投领投,专注特定任务型大语言模型研发,推动AI在企业级场景落地。
- 中国科学院:完成全球首款原生类脑脉冲大模型**“瞬悉”** 训练与推理,基于国产GPU平台,开源70亿参数版本能耗降低超40%。
- 明略科技:推出多智能体平台DeepMiner,基于智能体混合架构,认为企业80%任务可由专用小模型高效完成,无需依赖通用大模型。
b. 国外
- OpenAI:研究人员宣称GPT-5解决未解数学难题后删帖,实际为检索已有成果,遭杨立昆等业界批评;明确今年不会推出GPT-6,无计划在2025年前发布该模型;推广“Sign in with ChatGPT”功能,允许用户账号登录第三方网站,节省开发者API成本并扩展生态;暂停Sora视频生成工具制作历史人物相关影片功能,因用户生成马丁·路德·金影像引发不当描绘争议,应家属及King, Inc.要求调整。
- Anthropic:发布轻量级模型Claude Haiku 4.5,通过蒸馏技术构建,编程能力媲美Sonnet 4,成本仅为其1/3,速度提升1倍,适合实时、低延迟任务(如聊天助手、在线客服);同时大幅削减Opus模型使用限制,引导用户至更经济模型以优化计算资源。
- Hugging Face:推出集成式AI平台HuggingChat Omni,基于Katanemo研发的Arch-Router-1.5B模型分类系统,可从15个提供商的115个开源模型(含GPT-OSS、Qwen、Deepseek、Kimi、SmolLM)中,根据用户指令自动选择最快、最经济或最匹配的模型,简化使用流程,提升处理效率与经济性;平台目前收录200万个开源模型,涵盖文本、图像等多领域。
- Google:发布Gemini Enterprise企业级AI平台,提供无代码工作台、集中式治理框架,可与现有业务应用深度集成;推出Gemma系列C2S-Scale 27B基础模型,首次成功预测新的癌症细胞行为假说,经活细胞实验验证,模型及资源已开源至Hugging Face和GitHub。
- Meta:在Instagram推出AI角色家长控制功能,允许家长阻止青少年与AI角色聊天,同时收紧敏感话题对话限制;Facebook上线可选AI功能,扫描用户手机相册生成拼贴画和编辑建议,仅在用户分享或编辑时将媒体用于模型训练,不用于广告定位。
1.1.2 多模态模型
a. 国内
- 字节跳动:发布多模态大语言模型Sa2VA,上架Hugging Face,结合SAM2和LLaVA优势,实现图像和视频的密集接地理解,在分割、接地、问答等任务表现领先;与加州大学洛杉矶分校联合提出Self-Forcing++ 方法,无需更换模型架构或重新收集长视频数据集,通过生成-纠错循环实现4分15秒高质量视频生成,突破时长限制,技术已开源,支持无人机视角、海底世界等场景。
- 科大讯飞:讯飞星火大模型支持多模态交互,含多模理解、视觉问答、多模生成、虚拟人视频功能;用户上传图片可获准确描述及问答响应,输入文本可生成合成音频、视频及AI虚拟人内容;V2.0版本升级多模态能力,支持文生图、图生文,视觉内容生成符合场景需求。
- 影石研究院:推出全景图像生成模型DiT360,基于DiT架构,通过分层混合训练框架结合有限全景数据与大规模透视图像,解决极区畸变和边界接缝问题,提升生成图像真实感与几何一致性,在多个任务中表现优于现有方法,相关代码及演示开源。
- 百度:发布PaddleOCR-VL-0.9B模型,支持109种语言识别,性能超部分私有模型,为多语言文本识别提供高效开源方案;推出7x24小时AI健康管家,采用“AI生成+真人医生核验”双认证模式,整合30万+医生资源,提供健康科普、问诊、挂号等全链路服务。
b. 国外
- Google:推出升级版视频生成模型Veo 3.1,增强视觉效果、音频同步与真实感;Pro用户可生成长达25秒视频,普通用户15秒,新增故事板功能,已在Lovart.ai等平台提供试用,面向电影制作人、开发者等群体。
- 英伟达:与麻省理工学院联合推出LongLive视频模型,支持240秒实时交互式视频生成,VBench测试总分84.87,背景与主角一致性94%,生成速度20.7帧/秒,采用流式长视频微调、KV重缓存等技术;与MIT等团队联合开发SANA-Video架构,实现27FPS实时视频生成,35秒合成1分钟高清视频,训练成本为MovieGen的1%,推理速度比现有模型快16倍,720p分辨率表现卓越。
- Gaga-1(Ever AI):首个专注“人物对话”的影视级音画同出模型,16:9固定画幅,仅支持5s、10s两种时长,需“图片+文字Prompt”生成,3-4分钟出片;可精准还原13种人物情绪,断句专业自然,支持10种语言(泰语效果差),写实角色、近写实皮克斯人物驱动效果佳,二次元、动物、拟人角色驱动困难,多人场景偶尔不理想;存在肢体变形、Prompt过长吞字、无法自定义上传音频及固定音色ID等短板。
1.2 垂直大模型
- 上海交通大学:推出智能编程框架AutoMLGen,通过自研蒙特卡洛图搜索技术,实现AI智能体从“代码生成”向“算法优化”能力