每日AI必读资讯 - 2025年4月18日
今日AI热点概览
2025年4月18日,全球人工智能领域迎来多项突破性进展:字节跳动发布具备“看图思考”能力的豆包1.5模型,OpenAI与软银考虑在英国投资“星际之门”项目,上海人工智能实验室开源多模态大模型“书生・万象3.0”,以及马斯克旗下xAI为Grok增加“记忆”功能。此外,全球首个人形机器人半程马拉松即将举办,阿里通义万相开源首尾帧生视频模型,谷歌推出Gemini 2.5 Flash等动态也值得关注。以下是今日AI领域的重点内容整理与分析。
重点新闻
-
字节跳动发布豆包1.5深度思考模型,新增“看图思考”能力
在火山引擎FORCE LINK AI创新巡展上,字节跳动正式发布豆包1.5深度思考模型。该模型具备“看图思考”能力,能够通过视觉输入进行推理和决策,标志着多模态AI技术的进一步成熟。豆包1.5将优先面向企业提供服务,助力行业智能化升级。
了解更多 -
OpenAI与软银计划在英国投资5000亿美元“星际之门”项目
知情人士透露,OpenAI与软银正考虑将“星际之门”AI基础设施项目扩展至英国,预计投资规模达5000亿美元。该项目旨在构建全球领先的AI计算中心,推动下一代大模型的研发与应用。此举可能重塑全球AI产业格局。
了解更多 -
上海人工智能实验室开源多模态大模型“书生・万象3.0”
上海人工智能实验室宣布开源“书生・万象3.0”(InternVL3),该模型能同时处理文本、图像等多模态输入,在GUI智能体、空间感知推理等任务中表现优异。其创新的预训练方法整合了语言与多模态学习,显著提升了跨模态理解能力。
了解更多 -
马斯克xAI为Grok新增“记忆”功能,追赶ChatGPT与Gemini
xAI旗下对话助手Grok推出“记忆”功能,可保留用户对话历史以提供更连贯的交互体验。这一更新旨在缩小与OpenAI和谷歌同类产品的差距,同时强化个性化服务能力。
了解更多 -
全球首个人形机器人半程马拉松4月19日开跑,参赛阵容公布
全球首个全人形机器人半程马拉松将于明日(4月19日)举行,参赛机器人包括波士顿动力Atlas、特斯拉Optimus等知名机型。赛事旨在测试机器人的运动控制与环境适应能力,推动仿生机器人技术发展。
了解更多 -
阿里通义万相开源首尾帧生视频模型Wan2.1-FLF2V-14B
阿里云宣布开源业界首个“首尾帧生视频模型”,该技术可通过起始和结束帧生成连贯视频,显著降低视频创作门槛。模型支持14B参数规模,适用于影视、广告等行业的自动化内容生产。
了解更多 -
字节跳动开源Seed智能体模型UI-TARS-1.5,引领GUI自动化风潮
字节跳动开源基于视觉-语言模型的多模态智能体UI-TARS-1.5,该模型可自动化完成图形用户界面操作任务,如点击、滑动等,为软件开发测试提供高效工具。
了解更多 -
谷歌推出Gemini 2.5 Flash:轻量化AI助手兼顾速度与性能
Gemini 2.5 Flash是谷歌最新发布的轻量化AI模型,在保持较高推理能力的同时大幅提升响应速度,适用于实时交互场景。美国大学生可限时免费订阅Google One AI Premium计划体验该服务。
了解更多