自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(117)
  • 收藏
  • 关注

原创 跨数据中心的创新:Moonshot AI与清华大学提出PrfaaS架构

清华大学与Moonshot AI合作提出PrfaaS新型推理架构,通过将预填充与解码阶段分离处理,实现跨数据中心协同计算。该架构将计算密集型任务分配至高算力集群,带宽密集型解码就近处理,使吞吐量提升54%,延迟显著降低。三大子系统独立设计支持灵活扩展,资源利用率显著提高。这一创新方案为大型语言模型推理提供了更经济的解决方案,有望引领AI推理架构新趋势,推动行业成本优化与性能突破。

2026-04-22 17:11:34 220

原创 Skywork AI团队发布了Matrix-Game 3.0,实现720p 40帧实时生成,解决AI视频“失忆”问题

AI视频生成迎来重大突破:SkyworkAI团队发布的Matrix-Game3.0首次在720p高清分辨率下实现40帧/秒的实时视频生成,并解决了长期存在的"失忆"问题。通过相机感知记忆检索机制和统一自注意力架构,系统能保持时空一致性,实现了从"生成片段"到"构建世界"的进化。该技术采用3A游戏数据+真实场景训练,通过剪枝、量化等优化手段,使5B参数模型流畅运行,还推出了28B参数的MoE版本。这一突破为机器人训练、XR扩展现实和沉浸式娱乐提供了关

2026-04-16 15:45:45 367

原创 微软图像生成模型MAI-Image-2-Efficient正式推出,速度提升22%,成本降低41%

微软推出高效图像生成模型MAI-Image-2-Efficient,主打性价比和规模化应用。该模型速度提升22%,效率提高4倍,成本降低41%,定价为每百万文本输入5美元、图像输出19.5美元。作为MAI-Image-2的补充版本,它针对批量生成场景优化,而原版更注重图像质量。新模型将集成到Copilot和必应搜索,便于用户直接调用。这标志着微软在AI图像生成领域进一步发力,与Flux等竞品展开效率与价格竞争。

2026-04-16 15:24:31 211

原创 HappyHorse力压Seedance2.0登顶,幕后团队曝光:疑似阿里P11张迪领衔

阿里旗下HappyHorse模型在全球权威AI视频榜单Artificial Analysis上登顶,以1355分大幅领先第二名字节跳动82分。该模型由"可灵之父"张迪团队5个月打造,展现了阿里从基础设施到模型层的全栈AI实力。HappyHorse的胜出打破了国内AI视频格局,证明技术壁垒尚未固化,人才流动和全栈布局正重塑行业竞争。评测体系的成熟也使AI竞争更透明,推动行业从营销转向真实技术比拼。

2026-04-09 15:46:08 455

原创 小米OmniVoice开源600+语种TTS模型,中文准确率吊打ElevenLabs?

小米开源OmniVoice语音合成模型实现技术突破,支持600多种语言并达到SOTA水平。该模型采用创新架构,合成速度达实时40倍,中文识别准确率WER仅0.84%,超越主流商用产品。其零样本克隆功能仅需3秒音频即可复制声音,并支持个性化调整。特别值得一提的是,该技术为小语种数字化保护提供可能。项目完全开源,将大幅降低语音合成技术门槛,推动有声书、虚拟主播等应用发展。

2026-04-09 15:43:49 603

原创 美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA

美团LongCat团队推出革命性音频生成模型AudioDiT,彻底摒弃传统梅尔频谱技术,直接在波形潜空间建模。该模型采用两段式极简架构:Wav-VAE无损压缩波形,语义增强DiT融合文本编码,实现0.818语音相似度新标杆。创新性解决音色漂移问题,并开发自适应投影引导技术提升自然度。模型已开源,推动行业告别梅尔频谱时代,开启端到端音频生成新范式。

2026-04-07 16:34:10 462

原创 Anthropic史诗级泄露,Claude Code CLI 51万行源码直接裸奔

2026年3月31日,Anthropic公司遭遇重大技术事故,其AI编程助手ClaudeCode的51.2万行完整源码意外泄露。事故源于技术人员在发布v2.1.88版本时,忘记删除59.8MB的Sourcemap调试文件,导致核心代码完全暴露。泄露内容不仅包含现有功能源码,还包括44个未发布功能(如24/7后台Agent、多AI协同等)、系统提示词和工程师隐藏的趣味彩蛋。虽然不影响用户数据安全,但暴露了顶级AI公司的流程漏洞,同时展示了AI远超公开水平的实际能力。这次"意外开源"为科技行

2026-04-02 13:24:09 440

原创 微软开源语音模型VibeVoice火了:GitHub一天27K Star,能处理90分钟长音频

微软开源VibeVoice语音AI模型家族,包含ASR和TTS三大核心模型,支持50多种语言、多说话人对话和实时语音生成。采用MIT协议允许本地部署,解决数据安全和成本问题。项目上线即获27K Star,已有开发者基于模型开发实用工具。此次开源将大幅降低语音AI应用门槛,可能引发类似Stable Diffusion的开源效应,推动语音AI应用爆发式增长。微软通过音频水印等机制平衡技术创新与风险管控。

2026-03-31 17:22:30 379

原创 Cursor承认Composer 2核心基座源自国产大模型Kimi,双方已达成授权合作

本周,全球AI编程领域发生了一起极具戏剧性的“反转”事件。长期被视为硅谷AI明星初创公司的Cursor,在发布其号称拥有“巅峰级编程智慧”的新一代模型Composer 2后,迅速陷入了一场关于技术原创性的信任危机。不同于以往的技术迭代赞美,这次迎接他们的是来自开发者社区的“代码 forensic(取证)”。

2026-03-24 16:34:35 428

原创 美团龙猫开源LongCat-Flash-Prover:数学定理证明模型刷新SOTA纪录

美团龙猫团队开源数学证明AI模型LongCat-Flash-Prover,实现从概率预测到严谨逻辑证明的突破。该模型具备自动形式化、草稿生成和证明生成三大核心能力,在MiniF2F等测试中达到97.1%通过率。采用TIR框架集成Lean4校验和防作弊验证,有效解决逻辑漏洞问题。这一技术突破标志着AI正从算法评测转向成为基础科研工具,开启AI参与数学探索的新时代。项目已在GitHub和HuggingFace开源。

2026-03-24 16:31:29 191

原创 AI智能体安全告急:蚂蚁数科“龙虾卫士”上线,构建纵深防御体系

蚂蚁数科发布"蚁天鉴2.0-龙虾卫士"AI安全防护体系,针对AI智能体应用中存在的权限越界、记忆污染等安全隐患,构建内容、插件、态势感知三层纵深防御。该方案通过精准识别恶意输入、插件合规扫描和实时风险预警,确保AI行为可控可溯。同时启动"龙虾AI安全守护计划",向首批100家企业提供免费安全服务,推动AI安全从概念走向落地实践。蚂蚁数科凭借在大模型安全领域的技术积累,致力于为企业AI应用建立可靠的安全基础设施。

2026-03-19 16:48:32 264

原创 阿里通义实验室首个影视级多模态配音模型Fun-CineForge发布,已正式开源

通义实验室推出开源影视级配音模型Fun-CineForge,突破传统AI配音瓶颈。该模型通过四模态融合架构实现四大创新:精准口型同步、拟人化情绪表达、稳定音色一致性及复杂场景时间对齐。配套开源的CineDub高质量数据集支持模型训练,显著降低转录错误率。实验数据显示,Fun-CineForge在多项关键指标上超越基线模型,首次实现对多人对话场景的精准支持。该技术为影视制作提供高效、低成本的配音解决方案,有望成为后期制作的重要工具。

2026-03-16 16:34:21 462

原创 性能优于Suno v5,腾讯清华联合发布 SongGeneration2:攻克咬字跑调难题,支持本地部署

腾讯与清华大学联合研发的音乐生成模型SongGeneration2于2026年3月9日发布,该模型在音乐性、歌词准确性和可控性方面实现重大突破。其创新性的"双核"架构(LeLM作曲大脑+Diffusion渲染器)能处理复杂编曲,音素错误率仅8.55%,支持多语种生成。4B参数的开源版本可在消费级硬件运行,并推出快速生成版本,大幅降低创作门槛。这一进展标志着AI音乐从实验阶段迈向商业应用,或将开启全民音乐创作新时代。

2026-03-10 11:15:49 324

原创 OpenAI发布GPT-5.4:支持百万Token上下文与原生电脑操作

2026年3月5日,OpenAI发布革命性GPT-5.4系列模型,带来三大突破性升级:1)首创"Thinking模式"实现透明化推理过程;2)百万Token上下文窗口支持处理超长文本;3)原生电脑操作能力使AI可执行跨应用任务。专业版针对高难度场景优化,错误率较前代降低18%。该版本标志着AI从对话工具向自主智能体的转变,在编程、办公、科研等领域实现人机协作新高度。目前模型已向订阅用户开放,API同步上线。

2026-03-06 18:03:28 503

原创 通义实验室发布:Fun-CosyVoice3.5与Fun-AudioGen-VD语音双模型

阿里通义实验室发布两款革命性语音生成模型Fun-CosyVoice3.5和Fun-AudioGen-VD,支持"FreeStyle"自然语言指令控制。Fun-CosyVoice3.5实现多语种复刻与精细控制,新增4种语言支持,生僻字错误率降低10%,延迟减少35%。Fun-AudioGen-VD提供全场景声音设计,支持音色定制、情绪模拟和环境特效。两款模型大幅降低语音创作门槛,为播客、游戏、影视等行业提供AI支持,推动语音技术应用新发展。

2026-03-02 14:59:41 890

原创 匿名屠榜后官宣!智谱 GLM-5 海外首发上线,对标国际顶尖大模型

智谱AI正式发布新一代大模型GLM-5,此前匿名测试版"PonyAlpha"已在OpenRouter平台引发轰动。这款744B参数的模型采用DSA稀疏注意力架构,在编程和智能体任务上达到开源SOTA水平,实测对标ClaudeOpus4.5。GLM-5率先海外上线并提价30%-100%,同时开源MIT协议版本,支持多语言和主流开发工具。作为国产大模型出海里程碑,GLM-5展现了在复杂系统工程和长程Agent任务上的领先实力,已服务全球1.2万企业客户和4500万开发者。

2026-02-12 11:40:26 497

原创 腾讯混元发布HY-1.8B-2Bit端侧模型:内存占用仅600MB,生成速度提升2至3倍

腾讯混元团队推出HY-1.8B-2Bit极小模型,通过首创的2Bit量化技术将模型压缩至0.3B等效参数,内存占用仅600MB。该模型采用量化感知训练和数据优化,在数学、代码等核心指标上性能与4Bit模型相当,同时在MacBook M4等设备上实现2-3倍速度提升。模型支持长短思维链切换,适配手机、智能家居等端侧场景,未来将通过强化学习进一步缩小与全精度模型的差距。这一突破为端侧AI应用开辟了新路径。

2026-02-10 15:25:17 560

原创 智谱开源GLM-OCR:0.9B小模型在复杂文档处理登顶SOTA

GLM-OCR 以 “小尺寸、高精度” 重新定义了复杂文档处理的性价比标准。其在复杂版式、手写印章及多语混排下的卓越鲁棒性,叠加极低的部署成本与开放 API,正在推动文档解析技术从单一的 “工具” 向行业通用的 “基础设施” 演进。

2026-02-03 15:55:48 967

原创 Liquid AI 推出本地端推理模型 LFM2.5-1.2B-Thinking:900MB 手机可跑,先思考再作答

Liquid AI发布LFM2.5-1.2B-Thinking推理模型,专为本地设备运行设计。该模型仅需900MB内存即可在智能手机运行,突破性地实现了复杂推理能力的端侧部署。其核心创新包括"简洁推理"训练方法、内部思维轨迹生成功能,以及针对低延迟场景的优化。模型支持离线使用,保障数据隐私,适用于医疗、金融等对安全性要求高的场景。这标志着端侧AI进入"会思考"的新阶段,证明小模型通过算法创新也能实现高性能。

2026-01-23 09:37:06 634

原创 文心5.0正式发布:2.4万亿参数、原生全模态统一建模,千帆平台全面开放调用

百度发布文心5.0大模型,参数规模达2.4万亿,采用原生全模态统一建模和MoE稀疏激活架构,激活参数比例低于3%。该模型在40余项评测中表现超越GPT-5等国际竞品,支持文本、图像、音频、视频的联合训练与生成。通过千帆平台开放API,已服务2亿月活用户,开发超130万个智能体。关键技术包括端到端语音合成、5分钟生成虚拟主播和实时交互数字人等功能,推动AI应用生态发展。

2026-01-23 09:29:36 822

原创 美团LongCat-Flash-Thinking-2601震撼开源:工具调用与推理能力双突破

美团LongCat团队开源最新AI模型LongCat-Flash-Thinking-2601,在智能体搜索、工具调用等核心评测中达到顶尖水平。该模型具备卓越的工具调用能力,显著降低新工具适配成本,并首次开源"重思考模式"模拟人类决策过程。在编程、数学推理等多项评测中表现优异,采用创新训练策略提升复杂场景适应能力。团队开放模型权重和在线体验资源,降低开发者使用门槛,推动AI技术发展。

2026-01-16 16:18:37 647

原创 谷歌重磅测试Nano Banana2Flash AI图像模型,极速+高性价比双突破

谷歌秘密测试新AI图像模型NanoBanana2Flash,作为GeminiFlash系列最新成员。该模型主打高速响应和性价比,虽在细节精度上不及旗舰版NanoBanana Pro,但优化了生成逻辑,保留现实知识理解能力。适用于实时交互、设计草图和社交媒体等轻量创作场景。谷歌通过"专业+高效"双产品策略,降低AI图像技术门槛,覆盖从专业到大众的全用户需求,推动行业向高效低成本方向发展。

2026-01-07 14:31:15 1014

原创 英伟达Rubin芯片提前量产,物理AI“ChatGPT 时刻” 降临

英伟达CEO黄仁勋在CES 2026宣布新一代Rubin芯片提前量产,实现性能与性价比双重突破。该芯片采用六芯协同架构,训练效率提升3.5倍,推理成本降低10倍,已获AWS、谷歌等巨头采用。同时,英伟达发布自动驾驶模型Alpamayo等新品,推动AI向物理AI演进。受出口限制影响,中国厂商暂无法部署该芯片。Rubin量产将加速全球AI基础设施升级,重塑行业格局。

2026-01-07 14:28:37 1109

原创 Qwen推出新一代图像编辑模型Qwen-Image-Edit-2511:稳定性与编辑功能大幅增强

通义千问发布Qwen-Image-Edit-2511模型,实现图像编辑技术重大升级。该模型在多人合影一致性、LoRa简化操作、工业设计精度、减少图像漂移等方面均有显著提升。支持从个人创意到工业设计的全场景应用,提供HuggingFace等多平台访问方式。社区已推出本地运行方案,用户可便捷体验这一全新图像编辑工具。

2025-12-26 17:11:16 1649

原创 阿里Qwen3-Omni-Flash发布:实时全模态交互,API定价1元起

阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash,采用实时流式架构实现文本、图像、音频和视频的无缝交互。该模型支持119种文本语言和多种语音识别/合成语言,语音表现接近真人水平。开放SystemPrompt自定义权限,允许用户调整模型行为风格。在基准测试中性能显著提升,代码生成和多模态理解能力突出。目前已上线API服务,定价亲民,并集成视频口播生成功能,大幅降低直播、短视频制作成本。阿里计划2025年推出轻量版、语音克隆和视频驱动头像等新功能,持续拓展AI应用边界。

2025-12-11 16:54:00 965

原创 微软VibeVoice-Realtime-0.5B正式上线:实时语音,快到“话未说完音已先到”!

微软推出轻量级实时语音模型VibeVoice-Realtime-0.5B,仅0.5B参数却实现300毫秒超低延迟响应,支持中英文流畅转换。该模型能稳定输出90分钟语音,支持4角色自然对话,并具备细腻的情感表达和稳定的上下文记忆能力。相比传统大模型,其轻量化设计更适合智能设备集成,为智能助手、对话系统等场景带来更自然的交互体验。模型已在Hugging Face平台开源,标志着AI语音技术向实时化、轻量化迈出重要一步。

2025-12-05 18:36:24 596

原创 诺顿重磅出击:全球首款安全AI浏览器Norton Neo免费开放下载

诺顿推出全球首款AI原生浏览器Norton Neo,主打安全与智能体验。该浏览器采用"零指令"设计,能自动提供摘要生成、提醒设置等服务;创新"可配置记忆"功能平衡隐私与个性化;集成WebShield安全防护,拦截恶意网站。Norton Neo现已全球免费开放下载,旨在为用户打造更安全高效的AI时代浏览体验。

2025-12-05 18:30:09 1127

原创 全球首个纯AMD训练的MoE大模型ZAYA1发布,性能对标Qwen3

AMD携手IBM与Zyphra发布全球首个基于AMD硬件的MoE模型ZAYA1。该模型采用128节点集群(1024张MI300X显卡)训练,算力达750PFLOPs,使用14T tokens数据并采用课程学习策略。架构创新包括降低32%显存占用的CCA注意力和提升2.3pp路由精度的线性路由MoE技术。基准测试显示其综合性能与Qwen3相当,在数学/STEM领域表现突出。AMD计划2026年实现纯AMD集群方案与NVIDIA的TCO持平,推动AI硬件生态多元化发展。

2025-11-25 16:55:34 1207

原创 谷歌发布全新AI原生集成开发环境(IDE)Google Antigravity以“代理优先”理念,实现多智能体并行开发

谷歌推出AI开发神器Antigravity IDE,集成Gemini3大模型,开启多智能体协作开发新时代。该工具采用"代理优先"设计理念,支持多个AI智能体并行开发,用户只需描述任务即可自动生成代码。独创"可验证产物"机制,通过截图、录像等方式直观展示开发过程,解决AI代码信任难题。创新性引入视觉反馈功能,支持在网页截图上直接标注修改意见。目前免费开放使用,支持多种AI模型,极大降低了开发门槛。Antigravity的出现标志着AI开发从辅助型向代理主导型转型,将重塑

2025-11-19 17:01:45 1425

原创 李飞飞World Labs发布Marble:用一句话生成可编辑的3D世界

WorldLabs发布全球首款商用多模态世界模型Marble,标志着AI从语言理解迈向3D世界构建的新突破。Marble支持文本、图像、视频等多种输入方式,可生成持久性3D环境并直接对接专业引擎,解决了传统3D生成工具易崩溃、难编辑的痛点。其特色在于多模态交互和精细编辑功能,用户可通过自然语言调整场景风格和结构,并导出各类产业标准格式。该技术已在游戏开发、影视制作等领域应用,预示了空间智能在机器人训练、城市规划等更广泛场景的应用前景,成为AI技术向三维世界延伸的重要里程碑。

2025-11-13 16:59:30 1540

原创 美团LongCat-Flash-Omni上线:5600亿参数实现音视频交互“零延迟”

美团发布5600亿参数多模态大模型LongCat-Flash-Omni,采用创新ScMoE架构实现实时交互(延迟<300ms)和全模态协同,在文本、图像、视频等任务上均表现优异。该模型通过端到端架构和动态权重调整技术,解决了多模态融合难题,已应用于教育、医疗等多个领域。开发者可通过官网、APP和API快速接入,有望重塑人机交互标准,开启全模态AI新时代。

2025-11-03 13:45:42 826

原创 Liquid AI发布LFM2-8B-A1B:8B参数仅激活1.5B,手机端跑出4B级AI性能新高度!

LiquidAI推出的LFM2-8B-A1B模型采用混合专家架构(MoE),总参数8.3B但仅激活1.5B,性能媲美3-4B稠密模型,可在移动设备运行。其创新稀疏激活机制通过动态选择专家降低计算负载,支持多语言和32K上下文。训练数据达12T令牌,在知识、数学、编码等任务表现优异。提供多种量化版本适配不同设备,已开源并支持主流框架,推动边缘AI普惠化。该模型通过智能激活而非参数堆砌,为设备端AI树立新标杆。

2025-10-13 09:26:57 908

原创 快手72B代码模型开源登顶,KAT-Dev横扫SWE-Bench,国产AI编程再掀热潮

快手开源720亿参数代码生成模型KAT-Dev-72B-Exp,以74.6%准确率登顶SWE-Bench榜单,超越所有开源竞品。该模型具备系统级代码优化能力,支持从补全到重构的全流程开发,训练成本降低40%。通过HuggingFace免费开放,为中小团队提供高效AI编程工具,推动国产AI在代码生成领域的突破性进展。

2025-10-13 09:22:45 791

原创 谷歌Gemini 2.5 Flash Lite模型更新,输出速度达887 token/秒

谷歌推出Gemini2.5系列升级版本,速度和效率显著提升。其中FlashLite输出速度达887token/秒,较上代提升40%,在多场景应用中表现突出,如编程任务和数据处理。新版本还优化了开发者体验,简化调用方式,并升级语音模型Geminilive。谷歌持续迭代AI模型,未来将重点优化多语言支持和低资源环境表现。

2025-09-28 14:57:57 728

原创 百度Qianfan-VL系列上线:推出3B/8B/70B三款视觉理解模型,覆盖不同算力需求

百度智能云千帆团队于2025年9月22日正式推出开源视觉理解模型Qianfan-VL,提供3B、8B和70B三种规格,满足不同企业级多模态应用需求。该模型具备全场景OCR识别、思维链推理能力,在文档理解、数学解题等复杂任务中表现优异。基于10亿张图像数据训练,支持手写体识别和结构化信息提取,适用于教育、金融等多个行业。模型在百度自研昆仑芯P800上完成全流程计算,测试中展现出高精度和高效性能。

2025-09-23 16:41:57 1180

原创 阿里云推出全球首个全模态AI模型Qwen3-Omni,实现文本、图像、音视频端到端处理

阿里云发布全球首个原生端到端全模态AI模型Qwen3-Omni,实现文本、图像、音频和视频的端到端处理。该模型在36项基准测试中22项领先,支持119种文本语言和19种语音输入语言,采用创新的MoE架构确保低延迟交互。同时发布的Qwen3-TTS文本转语音模型支持17种音色,Qwen-Image-Edit-2509图像编辑工具支持多图像处理。这些创新大幅提升了AI跨模态处理能力,为全球用户提供更高效的自然交互体验。

2025-09-23 16:38:28 1215

原创 腾讯混元发布集成翻译模型Hunyuan-MT-Chimera-7B,已开放体验

腾讯混元翻译模型Hunyuan-MT-Chimera-7B于2025年9月1日正式开放体验,采用创新集成模式,能综合多个翻译模型结果生成更优译文。该模型原生支持Hunyuan-MT-7B,并可接入deepseek等模型,显著提升翻译质量。开源后迅速登上HuggingFace趋势榜首,获开发者广泛关注。目前已在QQ浏览器视频AI字幕等内部业务中应用,支持33种语种互译。腾讯希望通过该技术消除语言障碍,促进跨文化交流。模型现已在官网开放体验,并在Github和HuggingFace平台提供下载。

2025-09-18 18:23:57 1081

原创 腾讯推出AI CLI工具CodeBuddy,国内首家同时支持插件、IDE和CLI三种形态的AI编程工具厂商

腾讯推出全形态AI编程工具CodeBuddy,支持插件、IDE和CLI三种使用方式,实现"一句话编程"。该工具利用自然语言处理技术,可将编码时间缩短40%,AI生成代码占比超50%,并支持多语言和复杂场景开发。深度集成腾讯云生态,提供代码质量优化和智能依赖管理。面向专业开发者和零基础用户,目前已开放使用,推动编程智能化发展。

2025-09-09 18:24:25 1598

原创 昆仑万维Mureka V7.5模型创作的AI音乐单曲《Digital Heartbeat》全球首发

昆仑万维发布MurekaV7.5 AI音乐模型,其创作的《DigitalHeartbeat》单曲全球首发,融合10种语言并展现AI音乐的真实艺术性。该模型具备多语言支持、自定义歌手风格、一体化音频编辑和开放API生态四大核心能力,突破传统AI音乐的机械感限制。歌曲发布后引发广泛热议,用户评价其真实度超越部分人类作品。MurekaV7.5正推动AI音乐从工具向创作平台转变,为开发者、专业音乐人和普通用户提供全新创作方式。未来昆仑万维还将研发实时情感响应等进阶功能,推动AI与人类创作者共生发展。

2025-09-09 17:22:47 1209

原创 微软AI推理模型rStar2-Agent:140亿参数的AI“小钢炮”,如何逆袭千亿级模型?

微软开源140亿参数AI推理模型rStar2-Agent,在数学、科学推理及工具使用任务中超越参数规模数十倍的竞品,颠覆了"参数即实力"的行业认知。该模型通过高效隔离式代码执行服务、创新的GRPO-RoC算法和多阶段强化学习策略实现突破,证明算法优化和训练效率比单纯堆参数更重要。这一成果或将推动AI竞赛从参数规模转向效率优化,助力AI技术普惠化应用。微软已将该模型开源,为开发者提供研究新方向。

2025-09-08 16:57:08 659

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除