三道杠卷胡-CSDN博客

原创【AI News | 20250804】每日AI进展

MLE-STAR的创新之处在于其通过网络搜索选择模型和代码片段，采用两轮优化过程，并引入多个专门代理确保代码质量，显著提升了机器学习工程的效率和质量。腾讯的混元基础模型团队近日发布了突破性的图像生成框架MixGRPO，该框架通过结合随机微分方程和常微分方程的创新采样策略，显著缩短了训练时间并提升了性能。此举进一步夯实了昆仑万维在大模型领域的布局。国内AI厂商问小白近日发布了第四代开源大模型XBai o4，该模型在复杂推理能力上实现了重大突破，采用独创的反思型生成范式架构，显著提升了推理效率和质量。

2025-08-05 20:06:24 789

原创【AI News | 20250729】每日AI进展

OpenAI最新力作GPT-5悄然进入公众视野，推出包括GPT-5-pro、GPT-5-high、GPT-5-mini和GPT-5-nano在内的多个版本。实测显示，GPT-5-pro展现惊人能力，一键生成网站、为经典游戏添加功能等；GPT-5-high则能构建宇宙飞船控制面板等复杂项目。业内分析认为，GPT-5将彻底改变编程领域，提升AI在编程、研究和问题解决中的角色，推动进入全新智能时代。

2025-07-30 20:44:44 911

原创【AI News | 20250728】每日AI进展

蚂蚁数科在世界人工智能大会论坛上正式发布了金融推理大模型Agentar-Fin-R1，该模型基于Qwen3研发，在FinEval1.0、FinanceIQ等权威金融大模型评测基准上表现卓越，超越了同尺寸的开源通用大模型及金融大模型，展现了其在金融专业性、推理能力及安全合规方面的强大实力。Runway公司推出的Aleph模型，作为视频编辑领域的革命性产品，通过自然语言指令实现多样化视频编辑，包括内容增删、风格迁移等五大核心功能，极大降低了操作门槛，为内容创作者提供了前所未有的便捷和自由。

2025-07-29 19:49:28 751

原创【AI News | 20250725】每日AI进展

作为Gemini CLI的Fork版本，DailiCode以其强大的多模型兼容性和丰富的功能集，为开发者提供了高效便捷的命令行AI助手体验。基于Golang、React和TypeScript的微服务架构，Coze Studio旨在降低AI Agent开发门槛，助力开发者应对复杂业务需求，实现AI产品的低成本专业化开发与应用，并鼓励社区共建。凭借Docker部署、高性能缓存和精细的权限控制，PromptShelf旨在优化AI项目的提示词管理流程，提升开发效率和协作体验，同时保持代码库的整洁性。

2025-07-28 20:53:43 1009

原创【AI News | 20250724】每日AI进展

在测试中，Seed LiveInterpret2.0展示了接近真人同传的翻译准确率和极低的延迟，同时在声音复刻方面也表现出色，为跨语言交流提供了更加自然流畅的体验。此外，5ire还集成本地知识库（支持RAG）、使用情况分析、提示词库和会话书签等功能，提供便捷的对话管理与优化体验，旨在成为一个高效、多功能的AI工作平台。欧洲公司Proton发布了一款名为Lumo的AI助手，该产品以隐私保护为核心，提供端到端加密的私密对话体验，支持文件上传和云端存储访问，但不保留任何对话记录。

2025-07-26 14:59:18 687

原创【AI News | 20250723】每日AI进展

苹果公司本周二推出了iOS26的第四个开发者测试版，引入了Liquid Glass界面的细微变化和重新推出的AI驱动新闻通知摘要功能。此次更新还包括新的“欢迎”启动画面、Siri的AI新闻摘要和优先级选择，以及全新设计的相机应用。苹果此前因BBC的投诉暂停了AI新闻摘要功能，现已加入警告提示用户核实信息。此外，Beta4还增加了新的动态壁纸和CarPlay壁纸，以及其他系统的同步更新。

2025-07-24 20:34:16 756

原创【AI News | 20250722】每日AI进展

高通AI研究院近日发布了颠覆性的CSD-VAR技术，通过创新的内容-风格分解方法，显著提升了视觉自回归模型的生成能力与创意灵活性。本综述全面探讨了语境工程的定义、原理、技术、架构、评估方法及应用，并指出了其当前局限和未来发展方向，强调其在构建可靠AI系统中的基础性作用。该模型通过创新的记忆机制，有效存储和提取场景信息，突破传统方法的限制，提升场景生成的连贯性和一致性。这一模式整合了多项工具，实现了开发者与AI的无缝协作，能够自主理解复杂任务并完成软件部署，为开发者提供了更高效、更快速的开发体验。

2025-07-23 22:59:42 1198

原创【AI News | 20250721】每日AI进展

通过规划器和执行器的分离设计，OctoTools不仅能够执行简单命令，还能处理复杂的多步操作，提升系统的可靠性和可维护性。该框架轻量且通用，支持子智能体和工具的可插拔，其在GAIA榜单上取得了75.15%的准确率，展现了其在技术上的领先性与创新性。AI Gist是一款以隐私优先为核心理念的AI提示词管理工具，提供变量替换、Jinja模板、AI生成与调优、历史版本记录、云端备份等丰富功能，支持多视图管理和快速筛选，集成多种AI模型，旨在提升用户管理效率和使用体验。

2025-07-22 21:38:10 973

原创【AI News | 20250718】每日AI进展

应用原生支持Markdown格式，具备免费多设备数据同步（通过GitHub、Gitee或WebDAV），并可配置多种本地及在线AI模型，结合RAG（检索增强生成）能力，让用户的笔记成为专属知识库。近日，一款名为ART的开源强化学习框架正式发布，该框架通过集成GRPO技术，为Python开发者提供了便捷工具，可训练AI Agent执行多步骤任务。Suno正式推出其AI音乐生成模型的最新版本v4.5+，引入了人声替换、伴奏生成和灵感激发三项核心功能，显著提升了音乐创作的灵活性和个性化体验。

2025-07-21 19:54:00 989

原创【AI News | 20250717】每日AI进展

该工具支持预览和缓存AI动作，并能一键集成OpenAI和Anthropic等领先的AI模型，是构建稳定、高效浏览器自动化方案的理想选择。通过在网页内运行MCP服务器，MCP-B利用浏览器现有的认证和安全模型，为AI提供结构化、精确的工具接口，而非依赖于屏幕抓取。在相同计算预算下，MoR以更少的参数数量超越了传统Transformer和递归Transformer模型，展现了其在AI研究领域的突破性潜力，适合大规模预训练与部署。FireGEO的推出，为SaaS行业的创新和发展注入了新的活力。

2025-07-18 23:21:55 1158 1

原创【AI News | 20250716】每日AI进展

TRAE作为一款内置AI助手的现代IDE，支持多种主流大模型，通过Builder模式与代码生成能力，为开发者提供类Copilot的辅助体验。项目提供两种部署方式（简化版和全模块版），支持多种免费和付费的第三方AI服务（如ASR、LLM、TTS），并已开源，旨在帮助用户独立搭建自己的智能终端后端服务。第三阶段主动式陪伴，建立闭环反馈系统使其能够主动学习和进化。华人团队开发的开源AI操作系统NeuralOS正式发布，该系统能够实时预测并模拟Windows操作界面，实现了个性化、流动的、互动的GUI构想。

2025-07-17 21:28:48 1048

原创【AI News | 20250715】每日AI进展

这一更新极大简化了AI与外部工具的集成流程，支持Web端远程MCP服务和桌面端本地MCP服务，为个人用户和企业团队提供了高效、灵活的AI工作流解决方案。此次更新不仅降低了AI与外部工具的集成成本，还为开发者社区提供了开放的生态系统，标志着AI助手从单一对话工具向综合工作流平台的转型。TimeCapsule LLM是一个实验性项目，旨在通过仅使用特定历史时期（目前为1800-1850年伦敦）的文本数据，从零开始训练语言模型，以模拟特定时代的语言和世界观，从而消除现代偏见。

2025-07-16 20:17:36 738

原创【AI News | 20250714】每日AI进展

LFM2系列包括350M、700M和1.2B三个参数规模的模型，采用创新的结构化自适应算子架构，显著提升训练效率和推理速度。中国人工智能企业月之暗面近日发布了其最新的开源大语言模型Kimi K2，该模型采用混合专家架构，总参数量达到1万亿，激活参数为320亿，展现出强大的智能体能力，包括自主调用工具和执行代码的能力。IndexTTS2作为一款即将发布的文本转语音大模型，以其影视级的生成效果、零样本语音克隆、全球首创的情绪与时长控制功能，标志着TTS技术的新高度。

2025-07-15 21:12:12 433

原创【AI News | 20250711】每日AI进展

Higgsfield AI正式推出Soul ID，一款革命性的个性化虚拟形象生成系统，能够高度还原用户真实外貌与气质，支持多样化风格预设，操作简便，适用于内容创作、个人品牌建设等多个领域，被誉为重新定义数字自我的黑科技。

2025-07-12 20:37:32 673

原创【AI News | 20250710】每日AI进展

xAI计划进一步扩展Grok4的多模态功能，包括图像生成和视频处理。这些模型的开放性和灵活性为开发者提供了在本地环境中安全优化和微调模型的能力，显著提升了医疗AI研发的效率和质量。微软开源了最新版本的Phi-4家族模型——Phi-4-mini-flash-reasoning，该版本在推理效率上实现了10倍的提升，平均延迟降低了2到3倍，特别适合教育和科研领域的应用。此外，谷歌还升级了‘圈选搜索’功能，引入AI模式，优化了谷歌镜头的使用流程，并为Pixel9Pro用户提供了一年的谷歌AI Pro订阅服务。

2025-07-11 21:55:49 946

原创【AI News | 20250709】每日AI进展

阿里语音AI团队近日开源了全球首个支持链式推理的音频生成模型ThinkSound，该模型通过引入思维链技术，实现了高保真、强同步的空间音频生成，标志着AI音频技术从“看图配音”向“结构化理解画面”的跨越式发展。SmolLM3采用了分组查询注意力和NoPE技术优化，支持双模式推理和128K上下文处理，原生支持六种语言，完全开源，为开发者和企业用户提供了高效、多功能的解决方案。焦点科技和中科金财等公司在智能体技术应用上展现出明显优势，阿里此举不仅提升了国产AI Agent的技术标准化，还降低了企业的接入门槛。

2025-07-10 20:51:39 534

原创【AI News | 20250708】每日AI进展

特别是在全球化场景下的多语言需求方面，PaddleOCR3.1通过新增PP-OCRv5多语种模型和PP-DocTranslation翻译产线，解决了多语种数据稀缺痛点，提升了专业领域的翻译效率和准确性。该工具支持极简集成，仅需不到10行Python代码即可连接数据库，内置安全与效率机制，支持多种数据库，为开发者提供了高效、可靠的工具选择。这一创新不仅大幅简化了传统视频制作的复杂流程，还提供了前所未有的创作灵活性和高效率，特别适用于电商、广告、IP开发等领域，展现了极高的商业化应用潜力。

2025-07-09 20:23:45 996

原创【AI News | 20250707】每日AI进展

B站近日宣布其开源的动漫视频生成模型AniSora迎来V3版本的重大更新，该版本通过引入时空掩码模块和强化学习与人类反馈技术，显著提升了视频的质量和流畅度，同时扩展了动漫风格的多样性。Gemini CLI的这次更新不仅提升了功能、兼容性和稳定性，还为开发者提供了更高效、更灵活的工作体验。中国科学院计算技术研究所自然语言处理团队开发的Stream-Omni多模态大模型，基于GPT-4o架构，支持文本、视觉和语音三种模态的交互，通过创新的模态关系建模和语音-文本映射机制，实现了高效的模态对齐和灵活的交互体验。

2025-07-08 19:03:56 1032

原创【AI News | 20250704】每日AI进展

该系列模型基于包含4000万对偏好对比的混合数据集Skywork-SynPref-40M开发，采用人机协同的两阶段流程优化数据质量，展现出广泛的适用性和出色的能力，成为开源奖励模型领域的焦点。Crome通过生成因果增强和中性增强的训练对，显著提高了模型在多项任务中的表现，特别是在安全性和推理能力方面。Trae-Agent支持自然语言驱动的编程任务自动化，兼容多种大语言模型，内置强大功能集成，操作日志记录，兼容Python3.12，标志着字节跳动推动AI驱动开发工具普及的又一里程碑。

2025-07-05 17:18:06 1014

原创【AI News | 20250703】每日AI进展

此外，项目还提供了集成到 QingLong 面板的方案，极大地提升了 Dify 工作流的自动化和可管理性，并附有详细的配置指南和常见问题解答。这一功能的引入为开发者带来了极大的灵活性，支持在关键生命周期阶段触发用户定义的shell命令，如自动格式化代码、日志与合规性追踪等。在性能测试中，EX-4D在FID、FVD和VBench等指标上全面领先，尤其在极端视角下的生成任务中表现卓越。这一技术的开源将为沉浸式3D内容创作和‘世界模型’构建提供关键支持，推动AI视频生成技术的普及和多模态AI在创意产业中的落地。

2025-07-04 21:12:07 828

原创【AI News | 20250702】每日AI进展

该协议是 BeeAI 平台的核心技术，并通过 DeepLearning.AI 提供入门课程，同时提供 Python 和 TypeScript SDK，便于开发者快速构建和部署兼容 ACP 的智能体及客户端。它强调Token 预算优化、信息持久化与共振，并引入了神经网络场论和符号机制等前沿研究，提供丰富的代码示例、指南和可复用模板，旨在帮助开发者构建更健壮、高效和智能的 AI 系统。项目旨在为学习者和开发者提供清晰、直观的指引，帮助其深入理解大模型的核心算法与机制，并鼓励社区成员参与共建，持续完善内容。

2025-07-03 21:51:41 640

原创【AI News | 20250701】每日AI进展

ManimML作为一个基于Python的开源动画库，专注于机器学习概念的动画与可视化，通过直观的动画展示复杂的神经网络架构，如Transformer和CNN，大大降低了技术传播的门槛。其简单易用的设计和广泛的应用场景，使其在学术界和开发者社区中迅速走红，荣获IEEE VIS2023最佳海报奖，展现了其在AI教育和科普领域的巨大潜力。字节跳动最新发布的XVerse图像合成技术，通过独特的DiT调制方法，实现了对多个个体的独立且精确控制，大幅提升了个性化和复杂场景生成的能力。

2025-07-02 20:05:36 730

原创【AI News | 20250630】每日AI进展

Ovis-U1采用创新的架构设计，通过视觉分词器、视觉嵌入表和大型语言模型三大核心组件，高效对齐视觉与文本嵌入，显著提升了模型在复杂场景下的表现。此外，Ovis-U1延续了Ovis系列的开源传统，代码、模型权重和训练数据均已公开，为全球开发者提供了探索多模态AI的便捷工具。OmniGen2采用了两条独立的解码路径，有效提升了多模态语言模型的表现。知乎近日发布了其AI搜索工具“知乎直答”的最新版本，重点升级了知识库功能，支持用户订阅和分享内容，并与知乎社区深度融合，提供沉浸式、多场景的AI问答体验。

2025-06-30 22:22:43 1163

原创【AI News | 20250627】每日AI进展

Dual AI Chat 是一个创新的 AI 聊天应用，通过引入逻辑型 AI (Cognito) 和怀疑型 AI (Muse) 之间的内部辩论机制，旨在提供更严谨、准确的答案，减少 AI 幻觉。采用FLUX.1非商业许可，支持研究和非商业用途，为开源社区和独立开发者提供了广阔的创新空间。HeyGen近日发布了一款革命性的AI视频Agent，该工具能够通过简单的素材上传，自动完成从故事规划、脚本编写到镜头选择的整个视频制作流程，大幅降低视频创作门槛，为广告、短视频、产品演示等场景提供高效解决方案。

2025-06-27 20:57:17 793

原创【AI News | 20250626】每日AI进展

出门问问创始人李志飞在北京发布会上推出了全新的AI硬件产品TicNote，这款厚度仅3mm的设备搭载了基于DeepSeek-R1等大语言模型的Shadow AI技术，支持AI转写、总结、思维导图生成等功能，录音时间超20小时，覆盖120多种语言。在与谷歌Gemini2.5Pro等顶级AI模型的竞争中，豆包在多个学科中表现突出，特别是在图文结合的理科题目处理上展现出近30分的提升幅度，验证了多模态AI在复杂认知任务中的巨大潜力。Rust语言的优势包括更好的安装体验、安全性和运行时性能，同时降低内存消耗。

2025-06-26 21:59:21 1105

原创【AI News | 20250625】每日AI进展

它涵盖了从 Simple RAG 到 Graph RAG、Hierarchy RAG、以及融合强化学习和知识图谱处理大数据的20多种 RAG 技术，并提供详细的解释、分步实现、代码示例和评估，帮助开发者理解 RAG 的工作原理，促进 RAG 技术的普及和应用。在高质量 Prolog 和 PDDL 样本训练后，ProtoReasoning 在逻辑推理、规划及多项基准测试中展现出显著提升，验证了结构化原型训练的有效性，为未来 LLMs 的发展开辟了新路径。

2025-06-25 21:59:24 1021

原创【AI News | 20250624】每日AI进展

核心功能包括深度研究模式（通过多轮迭代深入探索）、灵活的搜索引擎和网页爬虫集成（如 SearXNG/Tavily、FireCrawl/Crawl4AI），以及大模型协同工作（用于关键词生成、网页评估、内容压缩和结果总结），旨在通过精密的提示工程，有效提升信息获取效率和准确性。此外，Claudia 还集成了详细的用量分析仪表盘、MCP 服务器管理、会话时间线与检查点功能，以及 CLAUDE.md 文件编辑工具，将命令行工具的强大功能与视觉化体验相结合，显著提升 AI 辅助开发的效率和生产力。

2025-06-24 22:04:15 1254

原创【AI News | 20250623】每日AI进展

这款行业首个多模态、多智能体协同的AI IDE，通过首创的设计稿一键转代码功能，为开发者提供了高效、智能且安全的编程体验。它提供了一系列即用型工具，弥合了大型语言模型与实际应用之间的鸿沟，涵盖文件操作、Shell集成、内存管理（支持Mem0和Amazon Bedrock知识库）、HTTP客户端、Slack客户端、Python执行、数学工具、AWS集成、图像/视频处理、音频输出、环境管理、日志记录、任务调度、高级推理以及群体智能（Swarm Intelligence）等。

2025-06-23 20:56:01 1220

原创【AI News | 20250619】每日AI进展

OpenAI 近日在 macOS 桌面应用为 Pro、Team、Enterprise 和 Edu 用户推出了 ChatGPT Record 新功能。该功能支持每次最长 120 分钟的录音，并能实时转录音频内容，结束后自动生成结构化摘要。这极大提升了会议记录、访谈和讲座处理效率。OpenAI 强调，此功能对英语录音效果最佳，所有音频在转录后会自动删除，且不用于模型训练，充分保护用户隐私。企业和教育用户可通过 Compliance API 访问，自推出以来已广受好评。

2025-06-20 00:25:30 889

原创【AI News | 20250618】每日AI进展

此外，列表还包括了桌面（Windows、macOS、Linux）、iOS、Android、Windows Phone 等平台上的客户端，以及打印、音频、Sublime Text 插件、Emacs、命令行、Alfred 工作流、智能手表和 Telegram 整合。这些项目需具备多轮交互或工具使用功能。该列表基于 GitHub Copilot Agent 的代码分析，并经过人工审核，旨在总结各项目所依赖的强化学习框架、算法、奖励类型（如外部验证器、简单规则、基于模型、自定义）和环境，以供技术参考。

2025-06-18 21:15:53 507

原创【AI News | 20250617】每日AI进展

中国AI公司MiniMax开源了其最新大型语言模型MiniMax-M1，以惊人的100万token输入和8万token输出上下文窗口，成为开源模型中最擅长长上下文推理的佼佼者，远超GPT-4o。此次更新实现了图像与视频创作的无缝衔接，为创作者带来一体化的内容生产力工具，巩固了字节跳动在AI多模态领域的领先地位。该功能支持灵活的任务调度，包括每日、每周或每月执行，并将结果通过通知或电子邮件送达，显著提升了使用便利性，超越了ChatGPT仅限于应用内操作的局限性。

2025-06-17 21:25:31 699

原创【AI News | 20250616】每日AI进展

字节跳动革命性的AI视频生成模型 Seaweed APT2 震撼发布，凭借其实时视频流生成、互动相机控制和虚拟人类生成的核心功能，被誉为通往“虚拟全息甲板”的关键一步。Ming-Lite-Omni 是一个参数量为28亿的轻量级多模态模型，能统一处理图像、文本、音频和视频，并具备强大的语音和图像生成能力。Ming-Lite-Omni 实现了上下文感知对话、文本转语音及图像编辑等功能，在多模态感知与生成任务上表现卓越，是首个与GPT-4o在模态支持上匹敌的开源模型，旨在推动社区进一步研究。

2025-06-16 22:07:02 631

原创【AI News | 20250613】每日AI进展

其核心是一个多代理 AI 系统，通过顺序执行的专业代理（如发现、公司资料、财务、技术栈和通用代理）来确保数据提取的准确性和效率。新版本聚焦提升用户在创作、生产力及数据处理方面的体验，新增了智能图像搜索和稳定图像生成功能，并引入反射模式，以更高效地处理复杂、长期任务。它集成了 AI 创作、AI 问答和 AI 搜索等功能，并提供强大的富文本编辑能力，支持多种格式导入导出。此次集成不仅提升了 Gemini 平台的竞争力，也为内容创作者、营销团队和开发者提供了免费、高效的专业级图像创作工具。

2025-06-13 23:10:14 942

原创【AI News | 20250611】每日AI进展

尽管在某些基准测试中表现略逊于顶尖模型，Magistral在Le Chat平台上的答题速度是竞争对手的10倍，并支持多语言，展现了其在研究、战略规划和运营优化等领域的潜力。该服务采用SEE模式，通过本地服务器直接与主流IDE和AI编码工具集成，能够提取组件、变量、样式、图层名、注释等丰富的元数据，甚至支持高层次设计截图和交互行为的伪代码描述。Krea AI正式推出其首款图像生成模型Krea 1，旨在解决传统AI图像生成中的“AI外观”问题，通过技术革新实现高度逼真的纹理、清晰细节和多样化风格。

2025-06-11 20:32:06 823

原创【AI News | 20250610】每日AI进展

R1-0528以其媲美顶尖专有模型的性能和开源特性，结合OpenRouter的免费API服务，大幅降低了AI开发门槛，尤其对资源有限的开发者极具吸引力。Rowboat由Agent、Playground和Copilot三大核心模块组成，能帮助用户创建、管理并部署由多个智能体协作的智能助手，同时提供HTTP API和Python SDK，大幅简化了智能体开发流程，受到广泛关注。王兴认为，AI发展短期易被高估，但十年维度将带来翻天覆地的变化，尽管投入短期承压，长期仍将显著提升生产力并服务于公司使命。

2025-06-10 22:17:10 768

原创【AI News | 20250609】每日AI进展

GUI-Actor 的注意力机制不仅能生成多个候选区域，还结合了一个接地验证器来选择最合理的动作区域，从而在多个 GUI 动作接地基准测试中实现了最先进的性能，特别是在 ScreenSpot-Pro 上表现出色。MonkeyOCR采用独特的“结构-识别-关系”三元组范式，提高了准确率并降低了计算资源需求，为企业部署AI文档解析方案提供了高效、经济的选择。百度执行副总裁沈抖强调，未来AI竞争将聚焦于智能体，百度智能云已推出多行业智能体解决方案，支持轻量化定制，助力企业快速实现数字化转型。

2025-06-09 20:43:57 1041

原创【AI News | 20250606】每日AI进展

Agentic Document Extraction 是 LandingAI 推出的一款 Python 库，旨在高效地从视觉复杂的文档（如PDF、图片、URL）中提取结构化数据，包括表格、图片和图表，并以分层 JSON 格式返回精确的元素位置。该模型通过引入 [laughs]、[whispers] 等音频标签，实现对语音情感、语速的精准控制，甚至能添加音效，使生成的语音不仅自然流畅，还能模拟真实对话中的语气变化和非语言表达，达到“演技合成”的效果。

2025-06-07 10:20:42 929

原创【AI News | 20250605】每日AI进展

它支持使用 OpenAI API 或 vLLM 搭配开源模型，并提供了从 PDF 到 JSON 的转换工具，以及详尽的模型评估方法，极大地简化了从研究到实现的流程。Cursor 1.0 还优化了界面和安装流程，旨在提供更智能、高效的编程体验，并获得了9亿美元融资支持，预示着其在 AI 驱动开发领域的强劲发展。这款工具通过简单的文本提示，即可实现视频内容的深度改造，包括风格重塑、场景替换、角色调整等，显著降低了传统视频制作的复杂性和成本。为确保 AI 生成音频的透明性，所有输出均嵌入 SynthID 水印。

2025-06-05 21:29:21 668

原创【AI News | 20250604】每日AI进展

Jaaz是一款免费开源的AI设计代理，作为Lovart的本地替代品，它能实现图像、海报、故事板的设计、编辑和生成。该模型颠覆了传统文本转语音系统需重生成整段音频的模式，允许用户直接替换、删除或调整音频中的特定部分，同时保持其他未修改部分的一致性，实现“所听即所得”的无痕编辑。Manus的目标是满足用户快速生成高质量视频的需求，并计划未来向所有用户开放此功能，以推动AI视频创作的普及和行业发展，为内容创作者提供高效工具。此举将吸引更多开发者，加速AI辅助编码的普及，并加剧AI编码工具市场的竞争。

2025-06-04 21:23:11 1153

原创【AI News | 20250603】每日AI进展

Fast-dLLM 在多项基准测试中表现出色，在大幅提速的同时，仍能保持高准确率，为扩散模型在语言生成任务中的广泛应用开辟了新的可能性，使其在与自回归模型的竞争中更具优势。小米公司近日开源了其研发的多模态大模型 Xiaomi MiMo-VL，该模型在图片、视频、语言的通用问答和理解推理等任务上，大幅超越同尺寸标杆模型 Qwen2.5-VL-7B，并在 GUI Grounding 任务上媲美专用模型。该框架支持多轮多模态训练，集成了先进的视觉嵌入模型，并已发布 7B 模型和交互式 Demo。

2025-06-03 22:43:17 1032

随心记 20250308

空空如也