- 博客(1826)
- 资源 (15)
- 收藏
- 关注
原创 英伟达发布 ChronoEdit-14B Paint-Brush LoRA:草图到真实图像的精准可控生成新范式
英伟达开源Paint-BrushLoRA技术,为ChronoEdit-14B模型提供草图引导图像生成能力。该技术通过线稿和文本提示生成逼真图像,保留结构的同时智能填充细节,实现光影、视角和材质的一致性。采用LoRA微调、结构先验和时序约束等创新方法,仅增加18MB参数即可提升控制精度。适用于工业设计、影视预演、教育科研等多个领域,支持主流AI工具链集成。这一突破标志着AI生成从语义主导转向"结构+语义"协同控制,为创作者提供更强大的想象力工具。模型已在HuggingFace开源,需搭配C
2025-11-27 05:00:00
60
原创 Texo:仅20M参数的轻量级LaTeX OCR模型,性能媲美大模型,支持浏览器原生运行
在UniMERNet-1M上,BLEU/编辑距离与PPFormulaNet-S(57 M)相当支持CPU、GPU、浏览器ONNX三种跑法github:https://github.com/alephpi/Texo
2025-11-26 06:00:00
76
原创 Code Wiki:谷歌推出AI驱动的代码知识引擎,让复杂系统“可读、可问、可演进”
谷歌推出AI代码文档平台CodeWiki,可将GitHub仓库自动转化为结构化Wiki文档,集成架构可视化、智能问答和实时同步功能。该平台通过程序分析引擎和多模态大模型,生成层级化导航目录、可视化架构图和自然语言解释。特色功能包括PR触发文档自动更新、AI聊天交互和语音讲解,采用三栏式设计优化浏览体验。目前支持数千个开源项目,即将开放企业私有仓库支持。CodeWiki融合AI、编译器分析和向量数据库技术,重构代码理解方式,为开发者提供动态知识中枢。
2025-11-26 05:30:00
68
原创 Kosmos:全球首个可执行端到端科研任务的AI科学家,一天完成博士生6个月工作量
摘要:2025年11月,EdisonScientific发布突破性AI系统Kosmos,首次实现自主科学研究闭环。该系统能处理1500篇论文并执行4.2万行分析代码,产出相当于博士后6个月工作量,准确率达79.4%。核心技术突破在于结构化世界模型,解决了传统AI在长程科研推理中的逻辑连贯性问题。Kosmos已复现3项人类发现并提出4项原创假说,涵盖神经科学等多个领域。其研究报告具备完全可追溯性,支持同行评审。每次运行成本约200美元,适用于关键科研问题攻坚。该系统的问世标志着AI正式进入"自主科学
2025-11-26 04:15:00
134
原创 DeepSeek-V3.2-Exp 推理演示早期版修复关键 RoPE 实现不一致问题,性能回归预期水平
摘要:DeepSeek团队发现其大模型DeepSeek-V3.2-Exp早期推理版本存在RoPE位置编码模块实现偏差,导致长文本处理能力下降。该问题源于训练与推理阶段的RoPE实现不一致,虽不影响基本运行,但会削弱模型在长上下文任务中的表现。团队已在GitHub紧急发布修复补丁,强调用户需立即升级以获得完整性能。此次事件凸显了大模型工程化中"毫米级精度"的重要性,也展示了国产AI团队快速响应问题的能力。建议所有用户更新代码并重新评估模型表现。
2025-11-25 05:15:00
159
原创 ChatTutor:让AI老师“会写会画”,打造可视化、互动式智能教育新范式
ChatTutor是一款突破性的开源AI教学助手,通过可视化电子白板实现"边讲边写"的沉浸式教学体验。该项目支持数学公式手写输入、动态函数绘图、自动生成思维导图等功能,采用多智能体架构实现专业协同。未来将扩展至编程、物理等STEM教育领域,适用于学生自学、教师备课和教育平台集成。作为MIT协议开源项目,ChatTutor通过赋予AI"教学肢体语言",推动教育从信息传递转向可视化互动建构,重新定义了AI助教的可能性。
2025-11-25 05:00:00
76
原创 WeatherNext 2:谷歌发布新一代AI天气预报模型,开启高时效、高精度、多情景气象决策新时代
谷歌推出新一代AI天气预报系统WeatherNext2,实现全球0-15天预报仅需1分钟,时间分辨率精细至每小时,支持数百种概率情景生成。该模型采用创新功能生成网络架构,显著提升极端天气预测能力,并已集成至谷歌生态系统,为航空、农业、能源等行业提供决策支持,推动天气预报向实时决策引擎转变。
2025-11-24 21:11:42
99
原创 Grok 4.1 发布:更少幻觉、更强共情,迈向“有人味”的AI对话新范式
xAI团队发布Grok4.1,实现从"能答"到"懂你"的升级。该版本创新采用"前沿智能推理模型作奖励模型"机制,在LMArena(1483Elo)和EQ-Bench3(1586Elo)两大基准测试中均获第一。技术突破包括:1)强化学习框架升级,减少"幻觉"问题;2)增强潜台词理解与性格建模,提升对话共情力;3)全平台覆盖实现无缝交互。Grok4.1标志着AI正从工具向具有情感智能的对话伙伴转变,重新定义人机交互边界。
2025-11-24 21:08:51
469
原创 首个开源方案:将 Godot 3D 游戏无缝嵌入 React Native 应用
摘要:开源项目react-native-godot创新性地将Godot游戏引擎嵌入ReactNative应用,实现高性能3D渲染与跨平台开发的完美结合。该方案支持引擎动态控制、多线程隔离运行和双向通信,允许开发者在RN应用中灵活嵌入3D模块,适用于电商、教育等多领域。项目彻底打破了传统移动开发中性能与跨平台的矛盾,为构建沉浸式3D应用体验提供了新范式。目前已开源,助力开发者用熟悉的JavaScript调用专业级3D能力。
2025-11-04 09:58:01
415
原创 Sora 2 不是 Demo,而是你的“印钞机”:用工作流自动化重构视频内容经济
AI技术革命已进入商业应用阶段。文章指出Sora2的发布标志着视频内容生产从人力制作转向智能自动化,传统代理模式将被自动化工作流替代。新竞争壁垒在于Prompt工程、工作流自动化和API集成能力的组合。作者提出三个可落地的商业案例:电商视频工厂、竞品对标引擎和热点响应系统,建议72小时内完成原型搭建并快速商业化。核心观点强调要从"玩家"转变为"建造者",将AI技术转化为现金流,抓住先发优势窗口期。
2025-11-04 09:49:24
421
原创 Luma 发布革命性视频生成模型 Ray3:自带推理能力 + 原生 HDR,Dream Machine 免费开放!
LumaAI推出革命性视频生成模型Ray3,实现从"生成"到"思考"的跨越。该模型具备多模态推理能力,可理解复杂指令并自我优化,支持画面涂鸦直接控制镜头与动作。原生HDR输出达影视级画质,直出EXR格式兼容专业后期流程。目前已在DreamMachine平台免费开放,将AI视频创作带入"可控可思可用"新阶段,大幅降低专业级视频制作门槛。
2025-10-13 08:00:00
969
原创 Notion 3.0 发布:你的 AI 知识工作智能体来了!能自动写页面、汇总反馈、发通知,还能“记住”你的偏好
Notion 3.0发布重大升级,转型为AI驱动的主动工作伙伴。新版引入两类智能体:Personal Agent(个人智能体)可深度理解用户习惯,自主执行跨平台复杂任务(如自动汇总客户反馈并生成报告);即将上线的Custom Agents(自定义智能体)支持为团队角色创建专属AI助手。其核心突破在于:AI能连续执行20分钟的多步骤工作流,并直接操作数据库/日历等模块,同时通过"页面即记忆"机制从用户日常记录中自主学习。该版本标志着Notion从被动记录工具进化为主动知识协作者,现已向付费
2025-10-13 06:00:00
588
原创 阿里推出 FunAudio-ASR:大幅降低语音识别“幻觉”与“串语种”,端到端更可靠
阿里推出全新端到端语音识别模型FunAudio-ASR,通过"轻量上下文增强"架构显著提升性能:幻觉率从78.5%降至10.7%,有效解决中英混杂识别和长音频理解问题。该模型采用两阶段处理(快速CTC解码+LLM语义增强),在保证速度的同时提升准确性。提供轻量版FunAudio-ASR-nano支持边缘设备,适用于客服、会议、医疗等场景,现已在阿里云百炼平台和魔搭社区开放体验。
2025-10-12 06:00:00
140
原创 突破3分钟限制:Qwen3-ASR-Toolkit —— 一键转写任意长度音视频,无缝对接 Qwen-ASR
阿里推出Qwen3-ASR-Toolkit工具包,突破3分钟语音识别限制,支持任意长音视频转写。该工具包基于DashScope平台Qwen-ASR API,通过智能VAD切分、并行调用和精准拼接,自动处理数小时级音视频文件,支持主流格式转换。其语义感知切分策略确保不在单词中切断,输出完整连贯的文本。适用于会议录音、播客字幕等场景,只需一行命令即可完成转写。现已开源,开发者可轻松实现长音频高效处理。
2025-10-12 06:00:00
204
原创 视频编辑进入“说改就改”时代:Decart AI 开源 Lucy Edit Dev,5B 参数模型实现零训练、零遮罩的文本驱动视频编辑
一句话指令即可实现视频人物换装、换景甚至换人?DecartAI推出的LucyEditDev模型(50亿参数)让这成为现实。该模型基于Wan2.25B架构,无需训练或手动标注,仅凭自然语言指令就能完成高保真视频编辑,尤其在换装任务上表现惊艳。三大核心功能包括:换衣(保持体型动作)、换人(需参考图)、换场景(如"室内变海滩"),其中换衣已达实用水平。模型已开源,支持本地推理,适用于短视频创作、电商试衣等场景,标志着视频编辑正迈向"语义驱动"新时代。
2025-10-12 05:30:00
354
原创 ElevenLabs Studio 3.0 上线:AI音视频创作,从此“一句话”搞定!
AI语音工具ElevenLabs推出Studio3.0平台,集成语音生成、智能配乐、音效合成、自动字幕等功能,实现"脚本到成片"的一站式创作。其亮点包括:1)文本编辑自动更新语音;2)智能配乐和文字生成音效;3)语音修复和多语言字幕功能。适用于短视频、播客、在线教育等场景,帮助创作者提升效率、降低制作门槛。Studio3.0让音视频制作从繁琐走向简单,聚焦创意本身。
2025-10-12 05:00:00
345
原创 IBM 开源轻量级多模态文档理解模型 Granite-Docling:258M 参数,精准还原 PDF、截图中的公式、表格与代码
IBM开源轻量级多模态文档处理模型Granite-Docling(258M),专攻高精度结构化文档理解。该模型不仅能识别文本,还能将扫描件中的表格、代码、数学公式等转换为结构化Markdown/LaTeX格式,在数学公式(96.8%)、代码块(98.8%)、表格(97%)识别上表现优异。支持中英文混排文档处理,适合科研、教育、企业知识管理等场景,现已开源并支持本地部署。这款小模型以精准高效的特点,为智能文档处理提供了轻量化解决方案。
2025-10-11 10:17:10
250
原创 GPT-5-Codex:你的第一个“AI 编程队友”,而不仅是工具
OpenAI推出革命性的GPT-5-Codex,将AI编程助手升级为具备工程思维的智能开发伙伴。该模型不仅能完成代码片段生成,更能主动规划、测试、迭代复杂任务,实现端到端软件开发闭环。其核心突破在于"工程智能体"架构,可自动拆解任务、调用工具、验证迭代,最终交付完整成果。性能方面,代码重构准确率提升至51.3%,简单任务响应速度提升93.7%,复杂任务可持续运行7小时。目前已面向企业用户开放,支持多平台无缝衔接的开发体验,标志AI编程进入"协同开发"新时代。
2025-10-11 06:00:00
216
原创 RAG 性能瓶颈终结者:REFRAG —— 30 倍提速,16 倍扩展上下文,精度零损失
《REFRAG:新一代高效RAG方案实现30倍加速》针对传统RAG系统存在的效率瓶颈,提出创新解决方案。该系统通过"压缩-感知-扩展"三阶段流程,智能筛选检索内容中的关键信息,在HotpotQA等基准测试中实现30.85倍的首token响应加速,保持准确率的同时将有效上下文容量扩展16倍。这种轻量级中间层设计显著降低了LLM的计算负担,适用于企业知识库、智能客服等需要高并发、低延迟的场景。项目已在GitHub开源,支持主流检索器和LLM后端,为RAG应用开发者提供了即插即用的高效选择方案
2025-10-11 05:00:00
67
原创 清华 × 字节联合开源 HuMo:高保真人物视频生成模型,让“数字人”真正可用
清华与字节跳动联合推出开源视频生成模型HuMo,实现人物身份高度保留、音画精准同步和多模态灵活驱动。该模型解决了传统视频生成中身份漂移、动作僵硬等问题,支持服装、场景、语音自由编辑,并兼容多语言。提供17B和轻量1.7B两个版本,适合电商、短视频、虚拟主播等场景。项目已开源,可自由商用。
2025-10-10 08:00:00
708
原创 AiNiee:一键“汉化”整部游戏、小说、电影的智能翻译引擎
《AiNiee:专为长文本优化的智能翻译工具》摘要 AiNiee是一款开源的AI翻译框架,专为解决游戏、小说、字幕等长文本翻译难题而设计。它突破传统工具局限,通过上下文记忆、思维链推理和自定义术语表,实现术语统一、角色语气一致和逻辑连贯。支持epub、json、srt等20+格式,自动识别语言和文件类型,并提供角色风格定制功能。相比逐句翻译工具,AiNiee能全局保持剧情连贯性,让译文更"有灵魂"。开源项目支持本地/云端大模型,适合内容本地化爱好者使用。
2025-10-10 06:30:00
417
原创 小红书爆款背后的语音黑科技:FireRedTTS-2,让多人对话“开口即自然”
FireRedTTS-2突破多人对话TTS技术瓶颈,实现4人自然轮换对话,支持7国语言和零样本语音克隆,具备商用潜力。其创新架构解决了传统模型音色混淆等问题,可实时生成3分钟多人播客,延迟仅140毫秒。开源特性使其在AI播客、智能客服、直播配音等场景具广泛应用前景,标志着语音合成进入"能演戏"的新阶段。
2025-10-10 04:00:00
468
原创 DeepMCPAgent:无需编码的通用智能体框架,让 AI 自动发现并调用工具
DeepMCPAgent是一个创新的AI智能体框架,通过MCP协议实现零代码工具集成。它能动态发现和调用外部工具(如RESTAPI、gRPC),无需修改主程序,支持LangChain等生态。其双模式设计包含基础的ReAct推理和高级的复杂任务规划能力,兼容主流LLM。相比传统需要硬编码工具的框架,DeepMCPAgent实现了工具管理与智能体逻辑的解耦,提升灵活性、可维护性和安全性,适合企业级AI应用。该开源项目支持各类工具动态注册,让AI系统具备实时感知和调用能力。
2025-10-09 10:13:26
232
原创 Meta发布MobileLLM-R1:小模型大能量,设备端推理新标杆
MobileLLM-R1不是Meta的"小打小闹",而是设备端AI的范式转移。它证明:🔹 小模型可以做到专业深度🔹 本地推理可以媲美云端能力🔹 高质量数据比海量数据更重要无需等待云端部署,你的设备现在就能拥有专业级AI助手。"MobileLLM-R1不是'小模型',而是'精模型'。它重新定义了设备端AI的可能边界。—— Meta AI实验室立即体验(支持140M/360M/950M三版本,设备端部署即用)
2025-10-09 06:00:00
1542
原创 华为开源盘古Embedded-7B-V1.1:嵌入式设备的快慢思考融合新范式
华为开源盘古Embedded-7B-V1.1大模型,突破嵌入式AI"快与深"的困境。该模型首创"快慢思考"自适应机制:在简单任务(如查询天气)采用快思考模式,响应速度提升2倍;复杂任务(如财报分析)自动切换至慢思考模式保持深度推理。通过动态思维链长度控制、32k原生上下文支持和昇腾NPU硬件优化,实现精度与效率双突破。实测显示,在保持精度的同时,部分任务思维链长度缩短近50%,为手机、工业边缘等场景带来智能决策新范式。
2025-10-08 14:42:17
309
原创 ST-Raptor:无需微调,准确率超越 GPT-4o 的半结构化表格问答新范式
上海交通大学等机构开源ST-Raptor,一个无需微调即可实现高精度半结构化表格问答的系统。该系统采用"视觉感知+结构解析+语言推理"三步架构,通过VLM识别表格内容、HO-Tree算法构建层次化语义树,再结合LLM进行推理问答。在SSTQA等基准测试中,ST-Raptor以72.39%的准确率超越GPT-4o等主流方法,能有效处理Excel/HTML等格式的复杂表格(如多级表头、合并单元格)。该系统支持本地部署和API调用,适用于财务、医疗、法律等领域的表格自动化处理。项目已开源,并提
2025-10-08 14:38:14
912
原创 Claude 升级办公生产力:原生支持 Excel、PPT、PDF 生成,AI 助手正式变身“智能办公顾问”
【AI办公革命:Claude推出文档自动生成功能】Anthropic为Claude推出革命性功能,实现从数据到专业文档的智能转换。用户只需在对话中上传数据文件并给出自然语言指令,Claude便能自动分析数据、编写代码、执行运算,最终生成可编辑的Excel、PPT、Word或PDF文档。这项功能通过私有沙盒环境确保安全,支持财务分析、报表生成、格式转换等办公场景,将数小时的工作压缩至几分钟完成。目前面向企业用户开放,标志着AI助手从"信息提供"向"成果交付"的转型。
2025-10-05 07:30:00
544
原创 AlterEgo:首款“近心灵感应”可穿戴设备,实现无声语音的实时捕获、翻译与交互
MIT研发的AlterEgo可穿戴设备通过捕捉面部神经肌肉信号,实现无需发声的人机交互。该设备能够识别用户默念内容,应用于三大场景:帮助失语者沟通、实现跨语言实时翻译、无声控制智能设备。其高精度电极阵列结合深度学习模型,将肌肉电信号转化为语言输出,同时严格限定只读取表达意图而非任意思维,确保隐私安全。这款被誉为"最接近心灵感应"的技术,为医疗康复、无障碍通信及特殊作业提供了创新解决方案,推动人机交互向更自然、直觉化的方向发展。
2025-10-04 06:00:00
267
原创 Qwen3-ASR-Flash:通义千问新一代语音识别引擎,方言、噪音、多语混杂全拿下,词错率全面超越 GPT-4o 与 Gemini-2.5-Pro
阿里通义实验室推出新一代语音识别模型Qwen3-ASR-Flash,基于Qwen3大语言模型基座,在多项测试中超越GPT-4o和Gemini-2.5-Pro。该模型具备三大核心优势:1)极强鲁棒性,支持11种语言、4种汉语方言及多口音英语识别;2)上下文感知能力,可自动提取ace专业术语;3)多模态语音理解,支持歌唱识别与非语音过滤。采用"声学+语义+上下文"三位一体架构,系的客服、会议、媒体转写等场景提供端到端解决方案,并支持HuggingFace在线体验和阿里云API集成。
2025-10-04 05:00:00
763
1
原创 百度发布 ERNIE-4.5-21B-A3B-Thinking:210亿参数 MoE 架构推理模型,激活仅 3B,开启高能效智能体新范式
百度发布新一代推理专用大模型ERNIE-4.5-21B-A3B-Thinking,采用210亿参数稀疏MoE架构(仅激活30亿参数),具备128K超长上下文和原生函数调用能力,显著提升能效比。该模型专为结构化推理和工具协同优化,支持多步任务规划、API调用等复杂场景,在保持强大推理能力的同时降低计算成本,适用于智能客服、数据分析等企业级应用。相比传统大模型,ERNIE-4.5在能效比、工具集成和部署友好性方面具有优势,标志着大模型向"精准激活、按需推理"的新发展阶段。
2025-10-03 07:00:00
286
原创 CSV to Chat:让非技术人员“对话式”分析数据,即时生成统计与可视化洞察
CSVtoChat:零代码数据对话工具革新商业分析 摘要:CSVtoChat是一款突破性开源工具,通过自然语言交互实现"零代码数据分析"。用户只需上传CSV文件并用日常语言提问(如"上季度销售额最高的产品"),系统即可在10-30秒内自动生成Python代码执行分析,返回结构化结果和可视化图表。该工具采用安全沙箱环境执行代码,集成先进代码大模型实现语义理解,支持多模态输出(文本/表格/图表)。相比传统BI工具,CSVtoChat显著降低使用门槛,特别适合非技术背景的业
2025-10-03 07:00:00
252
原创 无需 OCR 的多模态 RAG 新范式:基于 ColQwen2 + Qwen2.5-VL + Weaviate 的 PDF 智能问答系统
摘要:传统OCR+RAG系统处理复杂PDF存在信息丢失和语义扭曲问题。Weaviate团队联合通义千问提出无需OCR的多模态RAG新方法,通过将PDF转为图像,利用ColQwen2实现图像-文本统一嵌入,结合Qwen2.5-VL视觉语言模型进行检索和问答。该方法完整保留视觉信息,支持跨模态语义对齐,适用于科研文献、法律医疗文档等复杂场景,实现了更智能、更鲁棒的文档理解与问答。
2025-10-02 06:30:00
325
原创 阿里开源 AgentScope 1.0:打造可中断、可记忆、可监控的智能体开发新范式
阿里巴巴推出AgentScope 1.0智能体开发框架,聚焦工业级Agent应用的可靠性、可控性与可观测性。该框架具备三大核心能力:实时介入控制支持任务中断与状态恢复;智能上下文管理通过动态压缩与长期记忆解决LLM"失忆"问题;高效工具调用提供统一接口简化集成。采用分层架构设计(核心框架、运行时环境、可视化平台),支持模块化使用与现有系统集成。通过开源生态和典型场景示例,AgentScope推动智能体技术从研究演示迈向工业部署,为构建可靠可控的智能体应用提供系统性解决方案。
2025-10-02 06:15:00
298
原创 字节跳动发布 UI-TARS-2:原生 GUI 智能体新标杆,办公、编程、游戏全能协同
字节跳动发布新一代GUI智能体UI-TARS-2,实现AI从"会聊天"到"会操作"的跨越。该模型采用端到端原生架构,将GUI操作、代码生成、工具调用等能力深度集成,在多个基准测试中超越主流方案。其创新点在于多模态状态感知、分层任务规划和跨平台统一动作空间,能自动完成办公、开发、游戏等复杂任务。UI-TARS-2的推出标志着智能体正从文本助手进化为具备环境交互能力的数字代理,为AI融入真实工作流提供了新范式。
2025-10-01 08:12:54
1256
原创 腾讯开源 Hunyuan-MT-7B:33语种全覆盖、30项WMT25冠军的轻量级机器翻译新标杆
腾讯开源轻量级多语言翻译模型Hunyuan-MT-7B,仅70亿参数却在WMT25评测中斩获30项第一。该模型支持33种语言互译(含5种中国少数民族语言),具备文化适配性和边缘部署能力,性能媲美GPT-4.1但体积更小。其亮点包括:深度语义对齐、轻量化设计、统一多语言架构,适用于跨境电商、智能硬件、民族文化保护等场景。腾讯同步开源了模型权重、评测工具及部署指南,推动多语言AI技术普惠。GitHub地址:https://github.com/Tencent-Hunyuan/Hunyuan-MT/
2025-10-01 07:56:57
690
原创 Elysia:Weaviate 开源的决策树驱动型 Agentic RAG 框架,让 RAG 真正“会思考”
Weaviate团队开源了Elysia框架,这是RAG技术向智能代理演进的重要突破。Elysia通过决策树架构实现动态任务规划,能够根据上下文智能选择工具、调整策略并优化输出形式,解决了传统RAG在数据处理、多模态输出和复杂查询等方面的局限。其核心创新包括按需分块、自动数据理解、多模态输出引擎等特性,支持从简单问答到企业级知识管理的多样化场景。Elysia作为编排层,将RAG从被动响应升级为主动规划,标志着RAG技术向"代理增强"方向的转型升级。
2025-10-01 07:54:38
238
原创 xiaohongshu-mcp:基于 MCP 协议的小红书自动化开源方案,AI 驱动内容运营新范式
摘要:开源项目xiaohongshu-mcp基于ModelContextProtocol(MCP)协议,为小红书平台提供全流程自动化运营解决方案。该项目将平台操作能力封装为AI可调用的函数,支持安全登录、图文发布、内容获取等功能,并能无缝集成主流AI客户端。采用Go语言开发,具备高性能和可扩展性,同时强调合规使用,避免平台违规。该项目为AI代理+社交媒体应用提供了典型样本,帮助内容创作者和营销团队提升运营效率,是探索自动化营销的理想技术路径。
2025-09-30 22:44:02
553
原创 腾讯 AudioStory:统一架构下的长篇叙事音频生成新标杆
腾讯ARC团队开源AudioStory模型,突破长篇音频生成技术瓶颈。该模型支持文本转音频、视频配音、音频续写等任务,通过统一架构实现多场景自然切换,解决了传统TTS系统在长程一致性、情感连贯性上的不足。AudioStory采用层次化语义建模,可保持数分钟音频中角色音色、情感强度的稳定性,在广播剧和动画配音任务中表现优异。其支持视频智能配音和音频续写功能,为有声书、动画制作、教育内容等领域带来革新。目前项目已开源,推动音频生成技术民主化发展。
2025-09-30 22:40:28
384
原创 Cloudflare 开源 VibeSDK:开启“氛围编程”新时代的全栈 AI 应用生成平台
Cloudflare开源VibeSDK,推出"氛围编程"AI开发平台。该平台支持自然语言描述即可生成生产级React+TS代码,具备多模型支持、自托管能力及安全沙箱等特性。核心亮点包括:1)完全开源可私有化部署;2)支持主流大模型灵活切换;3)生成可直接使用的现代化前端代码;4)提供从描述到部署的端到端开发闭环。适用于企业内部工具搭建、编程教育、快速原型开发等场景,实现AI辅助开发而非替代开发者。通过模块化设计,VibeSDK在降低开发门槛的同时保持代码可控性,推动人机协作的编程新范式。
2025-09-30 22:30:12
407
原创 阿里通义实验室开源革命性多模态智能体 WebWatcher:首个多工具协同的视觉语言深度研究引擎,全面超越GPT-4o
阿里巴巴开源多模态智能体WebWatcher,在权威评测HLE-VL、BrowseComp-VL和LiveVQA上全面超越GPT-4o和Gemini2.5Flash等闭源模型,最高领先38.8%。该系统创新性地采用"视觉语言理解+多工具调度"架构,支持浏览器、图像搜索、OCR等工具链动态组合,实现类似人类研究员的复杂推理能力。阿里同步开源7B和32B两个版本,覆盖从本地到云端部署需求,已在ModelScope平台开放下载。WebWatcher标志着开源社区首次在深度研究智能体领域实现技术
2025-09-27 08:00:00
272
房屋租赁合同word模板
2025-12-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅