AI News
1、字节跳动发布Seaweed-7B视频模型:70亿参数实现音视频同步生成与多镜头叙事
字节跳动推出新一代视频生成模型Seaweed-7B,该模型仅70亿参数却实现多项突破:支持音视频同步生成、多镜头叙事(保持角色连贯性)、2K分辨率实时生成(24fps)及3D场景模拟。采用DiT架构和对抗后训练技术,推理速度较同类快62倍,训练成本仅为行业1/3。目前已通过即梦平台提供试用,其低成本高效率特性将重塑短视频创作、虚拟主播等领域的生产模式,成为继Sora后AI视频生成的重要里程碑。
2、智谱AI启动IPO辅导:冲刺A股首家上市大模型企业,估值超300亿元
国内AI领军企业智谱AI正式启动IPO辅导,有望成为A股首家上市的大模型公司。该公司依托清华大学技术背景,已推出GLM系列大模型及ChatGLM等商业化产品,最新开源模型GLM-4-32B-0414以低成本高效率引发行业关注。目前智谱AI在C端和B端市场均取得突破,完成超100亿元融资后估值达300亿元,其重点布局的AI Agent领域与三星等企业展开合作,若成功上市将开创国内大模型企业资本化先河。
3、OpenAI发布GPT-4.1提示工程指南:精准指令驱动模型性能跃升
OpenAI针对GPT-4.1模型发布全新提示工程指南,强调该版本具有更严格的指令遵循特性,需通过清晰具体的提示(推荐XML/GDM结构化格式)才能发挥最佳性能。指南提出分步规划、工具调用优化等策略,在代码生成等任务中显著提升效果,建议开发者摒弃模糊表述而采用显式指令。这一调整标志着从GPT-4的"意图推测"转向"精准执行"的设计哲学转变,为构建高可靠性AI应用提供方法论支撑,目前已在开发者社区引发广泛实践。
4、Firefox引入AI链接预览功能:悬停即可智能生成网页摘要
Mozilla为Firefox浏览器新增AI驱动的链接预览功能,用户悬停鼠标即可自动获取目标网页的智能摘要,无需点击即可快速判断内容相关性。该功能在提升浏览效率的同时,通过仅展示摘要而非全文的方式兼顾网站流量保护。虽然谷歌Chrome目前也提供链接预览但尚未整合AI技术,行业预计类似AI功能将成为浏览器标配,推动网页浏览体验的智能化升级。
5、腾讯云大模型知识引擎支持MCP协议:开放插件生态赋能AI应用开发
腾讯云宣布其大模型知识引擎升级支持MCP协议,开发者可直接调用平台精选的EdgeOne、Figma等MCP插件或集成自定义插件,覆盖网页部署、位置服务等多元场景。该升级通过标准化协议降低开发门槛,提供灵活可扩展的插件生态,加速企业级AI应用的快速落地与功能拓展。
6、阿里通义实验室发布OmniTalker:双分支DiT架构实现数字人音视频完美同步
阿里通义实验室推出数字人生成模型OmniTalker,通过双分支DiT架构实现文本驱动的高保真音视频合成,用户仅需上传参考视频即可精准复现人物表情、声音和说话风格。该模型突破传统级联流水线的音画不同步问题,在魔搭社区和HuggingFace提供免费体验,其多模态特征融合技术使生成效果接近实拍水平,显著降低数字人制作成本,为虚拟主播、智能助手等场景提供新解决方案。
7、国产开源模型HiDream-I1发布:17B参数媲美GPT-4o,登顶国际AI榜单
智象未来发布国内首款开源图像生成模型HiDream-I1,该17亿参数模型在真实感、细节还原和指令理解方面表现优异,成功登顶Artificial Analysis测试平台榜首,成为首个获此成绩的中国自研生成式AI模型。用户可通过自然语言提示生成高质量图像,其水花、动态等细节处理能力媲美GPT-4o,目前已在HuggingFace和GitHub开源,即将推出的HiDream-E1版本还将支持交互式编辑功能,推动国产开源AI技术发展。
8、Haisnap上线:AI驱动零代码开发,自然语言秒变可运行网页应用
AI应用开发平台Haisnap正式推出,通过多智能体协作实现自然语言描述到完整网页应用的自动生成,用户仅需输入需求(如"性格测试应用")即可获得可访问链接及下载源代码。该平台采用需求理解、代码生成、界面设计、测试优化四类AI协同工作,支持前端后端代码打包下载,显著降低开发门槛,适用于教育、营销等场景的快速原型开发,推动无代码AI工具向更广泛用户群体普及。
9、MiniMax发布MCP Server:文本指令一键调用视频/语音/图像生成能力
MiniMax正式推出多模态AI服务器MCP Server,通过标准化协议整合视频生成、图像创作、语音合成及声音克隆等能力,开发者仅需文本指令即可调用。该服务兼容Claude、Cursor等主流MCP客户端,其声音克隆功能因高保真度获用户好评,结合低成本API策略,有望推动短视频、虚拟交互等场景的创新应用。此次发布标志着国产AI在多模态领域的技术突破,为开发者提供对标OpenAI Sora的本地化解决方案。
10、月之暗面Kimi推出内容社区:大模型产品转向用户互动新赛道
月之暗面启动旗下AI助手Kimi的内容社区灰度测试,该产品从单次对话工具升级为UGC互动平台,支持用户分享与消费生成内容。这家清华系创业公司曾以200万字长文本处理能力引发关注,近期在调整模型服务价格(最高降幅83%)后,试图通过社区化运营提升用户留存,探索广告与订阅等商业化路径,但需应对内容合规和用户活跃度等挑战。
11、智谱AI开源32B/9B系列GLM模型并启用Z.ai平台:推理速度200tokens/秒,成本仅竞品1/30
智谱AI宣布开源32B和9B参数的GLM系列模型,包括基座、推理及沉思三类,采用MIT许可允许商用。其中GLM-Z1-32B-0414推理速度达200tokens/秒,成本为竞品DeepSeek-R1的1/30,在数学代码等任务表现媲美更大模型;同步推出的Z.ai平台整合三类模型提供免费体验,其沉思模型通过搜索工具整合实现研究闭环能力,MaaS平台同时上线免费和高性能API服务,显著降低企业AI应用门槛。
12、快手可灵AI发布2.0视频/图像生成模型:全球用户破2200万,商业化收入超1亿
快手旗下可灵AI正式推出可灵2.0视频生成与可图2.0图像生成模型,其1.6pro版本此前已在Artificial Analysis图生视频榜单超越Google Veo 2登顶全球第一。数据显示,该平台累计生成超1.68亿视频及3.44亿图片,全球用户达2200万,商业化收入突破1亿元,最新迭代版本在动态质量和语义理解上保持领先,通过App、Web等多端产品矩阵持续扩大AI创作生态影响力。