每周编辑精选
文章平均质量分 90
精选每周上新的公共教程、数据集以及 AI4S 论文解读等内容,干货满满
HyperAI超神经
链接人工智能新场景
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑
在实际应用中,语音智能体和内容播报不仅需要极高的语言理解力,还要求模型能在本地环境低延迟运行,并支持多语种的无缝切换。该数据集是一个用于大语言模型预训练的高质量教学数据集,由 Sutra 框架生成,创建了结构化的教育内容,优化了语言模型的预训练。该数据集是由 NVIDIA 联合 Pleias 公司于 2026 年发布的法国合成人物数据集,包含基于法国真实人口统计、地理和性格特征分布生成的合成人物数据,旨在通过反映法国的地理和人口分布,提供多样化的合成人物数据以支持模型开发。原创 2026-04-08 14:29:50 · 342 阅读 · 0 评论 -
低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集
摘要:MistralAI开源VoxtralMini4BRealtime2602多语言实时语音转录模型,支持13种语言,延迟可低至240ms,准确率接近离线系统,适合边缘计算部署。HyperAI官网更新了4个优质数据集(包括STEM推理、肺癌临床等)、3个教程(含腾讯视频生成模型)及3篇社区文章(物理信息GNN、肽预测框架等),并提供免费CPU资源部署热门开源模型的教程。原创 2026-03-13 16:23:29 · 374 阅读 · 0 评论 -
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准
该模型以「高性能、低门槛、易部署」为核心优势,基于 Qwen3 大语言模型架构优化,融合代码领域专属的预训练数据(覆盖 80+ 主流编程语言、10 亿 + 代码片段)与 RLHF(人类反馈强化学习)代码对齐优化,在 HumanEval+、MBPP、MultiPL-E 三大权威代码评测榜单中均达到开源模型第一梯队水平,性能接近 CodeLlama-70B,适用于算法编写、业务代码生成、代码注释补充、跨语言代码转换、Bug 修复等多类编程场景。当前,单一的语音生成模型在面对复杂的现实世界需求时已显乏力。原创 2026-03-06 14:01:17 · 389 阅读 · 0 评论 -
当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化
「HyperAl 超神经为大家整理了 2.22-2.27 期间一系列极具价值且应用广泛的教程和数据集,涵盖OCR、多模态、 大语言模型 等多个领域~」原创 2026-02-28 14:48:25 · 940 阅读 · 0 评论 -
LightOnOCR-2-1B:基于 RLVR 训练实现高精度端到端 OCR;Google Streetview 国家街景图像:基于世界级地理映射技术的全景图像开源库
这个仅 10 亿参数的端到端视觉-语言模型,在权威基准 OlmOCR-Bench 上实现了新的 SOTA,性能超越此前最佳的 90 亿参数模型,同时体积缩小 9 倍、推理速度提升数倍。LightOnOCR-2-1B 用一个统一模型直接从像素生成结构化的有序文本和图像边界框,通过集成预训练组件、高质量的蒸馏数据以及 RLVR 等策略,在简化流程的同时,显著提升了处理复杂文档的效率。它采用创新的混合架构,实现了极致的记忆效率与吞吐量,专为需要在设备端进行实时推理且不牺牲智能水平的场景而设计。原创 2026-02-09 14:31:16 · 877 阅读 · 0 评论 -
FLUX.2‑klein‑4B:步数蒸馏实现 4 步亚秒级图像生成,在消费级 GPU 上体验实时交互;Vehicles OpenImages 数据集:专注车辆检测与定位
DiagAgent 是由上海交通大学和上海人工智能实验室的 AI4Med 团队发布的诊断智能体(7B、8B、14B),能够主动管理诊断轨迹,选择最具信息量的检查、决定何时停止检查并给出准确的最终诊断。仅需约 13 GB 显存即可在消费级 GPU 上高效运行,并支持 FP8/NVFP4 量化,速度进一步提升最高 2.7 倍,将 AI 图像生成从「笨重的离线工具」转变为响应灵敏的实时协作者,为实时设计、交互编辑等场景提供了轻量、高效的解决方案。原创 2026-02-02 16:33:47 · 718 阅读 · 0 评论 -
TRELLIS.2:采用 O-Voxel 技术,高效生成复杂 3D 几何与材质;Patient Churn Prediction 数据集:帮助识别有流失风险的患者
Nemotron Speech Streaming ASR 是由英伟达(NVIDIA)Nemotron Speech 团队发布的流式自动语音识别模型,该模型专为低延迟实时语音转写场景设计,同时具备高吞吐的批量推理能力,适用于语音助手、实时字幕、会议转录及对话式人工智能等应用。模型参数规模仅 70 亿(7B),但在真实网页操作任务中表现突出,在多项 Web Agent 基准测试中达到了同规模模型中的 state-of-the-art(SOTA)水平,并在部分任务上接近甚至超过更大规模模型。原创 2026-01-26 15:49:18 · 648 阅读 · 0 评论 -
IQuest-Coder-V1:基于代码流训练的编程逻辑增强模型;Human Face Emotions:基于多标注维度的人脸情绪识别数据集
九坤投资旗下至知创新研究院开源发布IQuest-Coder-V1代码大模型,该模型基于"代码流"思想,通过分析真实代码变更历史提升生成质量,支持128K长上下文处理。同时,HyperAI官网更新了包括vLLM部署教程、QwenLong-L1.5长文本模型及Qwen-Image-2512图像生成模型等资源,并收录AI百科词条和学术会议信息,为开发者提供一站式AI资源平台。原创 2026-01-19 17:10:46 · 609 阅读 · 0 评论 -
揭秘 AI 推理:OpenAI 稀疏模型让神经网络首次透明化;Calories Burnt Prediction:为健身模型注入精准能量数据
近年来,大语言模型在能力上突飞猛进,但其内部决策过程如同一个深度纠缠的「黑箱」,难以追溯和理解。这一根本性难题,严重阻碍了AI在医疗、金融等高风险领域的可靠应用。如何让模型的思考过程变得透明、可追溯,仍是悬而未决的关键问题。原创 2026-01-14 23:16:53 · 525 阅读 · 0 评论 -
交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑
世界模型正驱动计算智能领域的重心逐渐从语言任务拓展至视觉与空间推理,通过构建动态三维环境的模拟能力,这些模型使智能体得以感知并与复杂场景交互,从而为具身智能、游戏开发等领域开启了新的研究与应用前景。该方法通过对齐教师模型与学生模型之间的记忆上下文,使学生模型在保持实时推理速度的同时,不丧失利用远程信息的能力,有效抑制误差偏移。为保障长期一致性,该模型设计了一种动态重构上下文记忆模块,能够重建历史帧的上下文信息,并通过时间重构策略,保持几何关键但时间久远的帧仍可被访问,从而显著缓解记忆衰减问题。原创 2026-01-06 21:04:18 · 594 阅读 · 0 评论 -
仅需5秒一步实现克隆!Chatterbox-Turbo 实现高采样率无损音质的语音生成
近期,Resemble AI 发布高性能对话式文本转语音(TTS)模型 Chatterbox-Turbo,这是首个开源的情绪程度控制模型。原创 2026-01-03 11:01:56 · 1024 阅读 · 0 评论 -
低门槛试用Open-AutoGLM:屏幕理解+自动执行的智能体体验;Spatial-SSRL-81k构建空间感知的自监督提升路径
HyperAI 超神经为大家整理了 12.8-12.12 期间一系列极具价值且应用广泛的教程和数据集,涵盖智能体、计算机视觉、TTS 等多个领域~原创 2025-12-15 15:10:51 · 868 阅读 · 0 评论 -
开源性价比最优选!Mistral AI 发布 Ministral 3 系列模型,集成多模态理解与智能执行能力;从高动态舞蹈到日常行为,X-Dance 数据集解锁人体动画生成多维度测试
HyperAI 超神经为大家整理了 11.17-11.21 期间一系列极具价值且应用广泛的教程和数据集,涵盖计算机视觉、生物学、多模态等多个领域~原创 2025-12-08 15:55:58 · 1384 阅读 · 0 评论 -
实时目标检测SOTA!YOLOv13拓展全局感知能力;入选NeurIPS 2025,UltraHR-100K解锁超高分辨率文生图
HyperAI 超神经为大家整理了 10.20-10.24 期间一系列极具价值且应用广泛的教程和数据集,涵盖生物医学、 HPC 、数学推理、文本信息抽取等多个领域~原创 2025-11-10 14:08:17 · 1538 阅读 · 0 评论 -
文档解析新SOTA!MinerU新版本创新「由粗到细」两阶段解析策略;S2S领域基准首发!腾讯最新基准数据集评测语音模型能力
HyperAI 超神经为大家整理了 10.13-10.17 期间一系列极具价值且应用广泛的教程和数据集,涵盖生物医学、视频生成、语言理解、文本识别等多个领域~原创 2025-10-20 19:21:42 · 991 阅读 · 0 评论 -
一键部署Qwen3开源三件套!端到端架构突破跨模态能力;10w个体样本!Health&Lifestyle洞悉生活方式与健康关联
Qwen3-Omni-30B-A3B-Captioner 是由阿里巴巴通义千问团队发布的音频描述大模型,无需任何提示,该模型能够自动为复杂语音、影视声效等生成精准全面的描述,能识别说话人情绪、音乐元素(如风格、乐器)、敏感信息等,适用于音频内容分析、安全审核、意图识别、音频剪辑等多个领域。原创 2025-10-02 11:00:59 · 1147 阅读 · 0 评论 -
实现精细特征化 TCR 序列!深度学习框架 DeepTCR 拓展免疫学研究手段;5w 条肺癌患者数据背书!Lung Cancer Risk 详解肺癌风险因素
HyperAI 超神经为大家整理了 9.8-9.12 期间一系列极具价值且应用广泛的教程和数据集,涵盖影像生成、生物学、逻辑推理等多个领域~原创 2025-09-15 16:15:34 · 821 阅读 · 1 评论 -
风格与主题高质量融合!USO框架通过解耦与奖励学习实现二者兼得;1k本中医典籍!华东理工发布MedChatZH让AI更懂中医
HyperAI 超神经为大家整理了 9.1-9.5 期间一系列极具价值且应用广泛的教程和数据集,涵盖图像编辑、多模态推理等多个领域~原创 2025-09-09 17:04:22 · 1051 阅读 · 0 评论 -
图像编辑新SOTA!Qwen-Image-Edit兼具语义与外观双重编辑能力;25种欧洲语言!Granary破题多语种模型数据荒
HyperAI 超神经为大家整理了 8.18-8.22 期间一系列极具价值且应用广泛的教程和数据集,涵盖图像编辑、多模态推理等多个领域~原创 2025-08-26 16:11:21 · 704 阅读 · 0 评论 -
性能赶超GPT-4.1-mini!MiniCPM-V 4.0达端侧图像模型新高度;HelpSteer3让AI回应更接近人类思维
该模型不仅继承了前代 MiniCPM-V 2.6 强大的单图、多图和视频理解性能,在 OpenCompass 评估中图像理解能力超越了 GPT-4.1-mini-20250414、Qwen2.5-VL-3B-Instruct 和 InternVL2.5-8B 等主流模型,更实现了参数减半至 4.1B,大幅降低了部署门槛。该数据集包含了 42,390 个样本,涵盖 4 种环境场景(雨、雾、夜晚、雪、晴朗天气)、不同的物体类别(汽车、卡车汽车、自行车、摩托车、步行者、交通标志交通灯)。原创 2025-08-19 15:36:29 · 1422 阅读 · 0 评论 -
1000w小时语音数据!语音模型Higgs Audio V2情感能力跃迁;MathCaptcha10k提升验证码识别技术
HyperAI 超神经为大家整理了 8.4-8.8 期间一系列极具价值且应用广泛的教程和数据集,涵盖自动驾驶、语音模型等多个领域~原创 2025-08-11 13:22:09 · 1187 阅读 · 0 评论 -
音频美学评估新范式!Audiobox-Aesthetics 首创四维音频量化;670 万个案例!Caselaw 解锁法律参考的合规蓝本
HyperAI 超神经为大家整理了 7.21-7.25 期间一系列极具价值且应用广泛的教程和数据集,涵盖音频分析、大模型等多个领域~原创 2025-07-28 11:57:02 · 849 阅读 · 0 评论 -
2.5k 个问题!HLE 突破性构建大语言模型精准评估体系;40 亿参数轻量级大语言模型 Jan-Nano,专为深度研究任务设计
近年来,大语言模型(LLM)取得了突破性进展,能够胜任解答问题、内容创作等多样化任务,展现出了强大能力。Benchmark 作为评估 LLM 发展能力的重要工具,对于 LLM 的能力改进与提升具有参考性意义,但目前热门 Benchmark 在难度设计方面存在欠缺,表现为前沿 LLMs 在现有的许多评估中均取得相近且较高的评分,导致 LLM 能力衡量准确性受限,也因此模糊了大模型的能力提升空间。原创 2025-07-21 13:56:31 · 1122 阅读 · 0 评论 -
推理能力跃迁!GLM-4.1V-Thinking推动认知智能演进;500万个分步思维数据示例!MathX-5M解锁数学推理新境界
来自 AMD 的 AI 架构师张宁,在「助力开源社区,剖析 AMD Triton 编译器」为题的演讲中,围绕公司在开源社区的技术贡献,系统解读了 AMD Triton 编译器的核心技术、底层架构支撑及生态建设成果,为开发者深入理解高性能 GPU 编程与编译器优化提供了全面视角。CIFAKE 是一个识别 AI 生成图像的合成数据集,该数据集是一个二分类图像数据集,对增强图像处理技术的鲁棒性、提升 AI 生成内容的辨识能力,尤其在新闻传播、社交媒体监控等领域,具有重要的实际应用价值。原创 2025-07-14 15:27:51 · 913 阅读 · 0 评论 -
OmniGen2 多模态推理×自我纠正双引擎,引领图像生成新范式;95 万分类标签!TreeOfLife-200M 解锁物种认知新维度
HyperAI超神经为大家整理了一系列极具价值且应用广泛的数据集,涵盖生物视觉、医疗分析、图像生成和农业等多个领域~原创 2025-07-09 11:11:00 · 917 阅读 · 0 评论 -
成本大幅降低!Distill-Any-Depth实现高精度深度估计;入选CVPR 2025!Real-IADD解锁工业检测新高度
Distill-Any-Depth 通过蒸馏算法整合多个开源模型的优势,仅需少量无标签数据即可实现高精度深度估计。原创 2025-06-23 14:16:49 · 1147 阅读 · 0 评论 -
告别代码烦恼!Seed-Coder 解锁高效编程;Mixture-of-Thoughts 涵盖多领域数据,实现高质量推理
Seed-Coder-8B-Instruct 仅需极少的人力投入,即可让 LLM 自行高效地管理代码训练数据,从而显著提升编码能力。通过自身生成和筛选高质量训练数据,可大幅提升模型代码生成能力。原创 2025-06-06 13:49:12 · 1210 阅读 · 0 评论 -
ComfyUI Chroma解锁文生图新维度;OpenMathReasoning数学推理数据集,首个专注数学推理的高质量数据集
该数据集涵盖了多种化学成分和物理属性,每条数据对应一种独特的材料。该数据集重点关注 5-9 级难度的数学问题,涵盖代数、微积分、数论、几何、概率、离散数学等多个领域,侧重挑战复杂推理能力,该数据集还通过语义匹配针对常见基准进行了细致的去污染处理,最大限度减少测试集泄露并促进模型公平评估。该数据集将图像和文本数据相结合,模拟真实场景中的信息检索与生成任务,例如新闻事件分析、视觉问答等,着重评估 MLLMs 在多模态上下文中利用检索文档知识的能力,包括对图像内容的理解、图文关联推理以及事实判断等方面。原创 2025-05-23 16:08:58 · 1072 阅读 · 0 评论 -
「吉卜力」画风生成神器—EasyControl 一键启动;单图秒变 3D 模型,TripoSG 革新 3D 资产生成
该模型在 LiveCodeBench v5 (8/1/24-2/1/25) 上实现了 60.6% 的 Pass@1 准确率,比基本模型 (53%) 提高了 8%,并且只用 14B 参数实现了与 OpenAI 的 o3-mini 相似的性能。该模型基于 Qwen2.5-VL 在 R1-Onevision 数据集上微调而成,擅长处理复杂的视觉推理任务,无缝整合视觉和文本数据,在数学、科学、深度图像理解和逻辑推理等领域表现出色,可作为强大的 AI 助手解决各种问题。近期,吉卜力风格的图像席卷各大社交媒体。原创 2025-04-27 16:14:02 · 757 阅读 · 0 评论 -
Stable Virtual Camera 重新定义3D内容生成,解锁图像新维度;BatteryLife助力更精准预测电池寿命
该数据集为 NVIDIA 于 GTC25 大会上发布的物理 AI 数据集,包含 15 TB 的数据,超过 320,000 条用于机器人训练的轨迹,以及多达 1,000 个通用场景描述 (OpenUSD) 资产,包括 SimReady 集合,涵盖了不同类型的道路和地理环境、不同的基础设施和不同的天气环境。数据集内含多个视觉场景,每个问题都配有 2 到 8 张图像,这些图像与文本交织在一起,形成复杂的多视觉场景,更贴近现实世界中的数学问题,能够有效评估模型处理多视觉信息的推理能力。原创 2025-03-28 17:13:20 · 1407 阅读 · 0 评论 -
扩散模型×音乐生成,DiffRhythm 分分钟完成歌曲创作!低门槛部署大语言模型,MiniMind 数据集重磅开源
来自剑桥大学的研究团队提出了一个名为 Celcomen 的虚拟组织模型,不仅能估计环境对单个细胞的影响,还能推测单个细胞对其周围环境及整体组织的影响,研究人员通过自一致性合成数据和真实世界数据实验验证了 Celcomen 模型在因果结构学习和解开因果关系方面的可识别性以及在真实和自模拟的空间转录组学数据中解开并恢复基因-基因相互作用的能力。该数据集包含用于对不同类型的垃圾进行分类和检测的图像和 YOLO 格式的注释,类别分别为:塑料、纸张和纸板、玻璃/金属、有机、废物、纺织品和电子产品(电子垃圾)。原创 2025-03-25 16:21:47 · 813 阅读 · 0 评论 -
开源顶流集结!QwQ-32B 解锁多元玩法,OpenManus 低成本构建 AI 智能体!vLLM v1 赋能高效模型推理
澳大利亚西澳大学等团队,提出了使用基于深度学习的自动化框架,该研究利用印度尼西亚一家医院的 200 次颅骨 CT 扫描,训练并测试了 3 种基于深度学习的网络配置,其中最准确的深度学习框架能够将性别和颅骨特征结合在一起进行判断,分类准确率可达 97%,显著高于人类观察者的 82%。R1-Onevision 数据集旨在赋予模型高级的多模态推理能力,它通过在自然场景、科学、数学问题、基于 OCR 的内容和复杂图表等多个领域的丰富、上下文感知的推理任务,弥合视觉和文本理解之间的差距。本文是数据集下载地址。原创 2025-03-14 16:13:37 · 1259 阅读 · 0 评论 -
Ebook2Audiobook 一键将电子书转有声读物;CVPR 首届跨域小样本对象检测挑战赛数据集上线
然而,YOLOv12 的推出改变了这一局面。澳大利亚西澳大学等团队,提出了使用基于深度学习的自动化框架,该研究利用印度尼西亚一家医院的 200 次颅骨 CT 扫描,训练并测试了 3 种基于深度学习的网络配置,其中最准确的深度学习框架能够将性别和颅骨特征结合在一起进行判断,分类准确率可达 97%,显著高于人类观察者的 82%。该数据集旨在通过高质量的标注数据,提升法律文书生成模型的性能,特别是在法律推理和文书撰写方面的能力,适用于法律智能系统、法律文书自动生成、法律问答系统等多种应用场景。原创 2025-03-07 19:06:24 · 1203 阅读 · 0 评论 -
超11w下载,OpenThoughts-114k推理数据集上线;首个AI短剧创作神器SkyReels-V1来了!告别高成本长周期
Owkin 公司立志实现生物学领域的首个AGI,已经解决了大众最担心的患者数据隐私问题,通过整合不同机构的多模态数据,为精准医疗提供了可靠的决策依据,助力乳腺癌、直肠癌等癌症的诊断和药物研发,已与赛诺菲、BMS 和阿斯利康等制药巨头合作。按照教程步骤操作,只需描述心中所想,即可生成高分辨率视频。它基于 Llama3.3-70B-Instruct 进行训练,采用强化学习和蒸馏技术提升推理表现,不仅继承了 Llama 系列模型的优势,还在此基础上进一步优化了推理能力,尤其在数学、代码与逻辑推理任务中表现突出。原创 2025-02-28 15:29:31 · 1586 阅读 · 0 评论 -
微软与腾讯技术交锋,TRELLIS引领3D生成领域多格式支持新方向
去年 11 月,腾讯推出 Hunyuan3D 生成模型,是业界首个同时支持文字和图像生成 3D 的开源大模型。紧接着不到一个月,微软便发布了全新框架 TRELLIS,加入 3D 资产生成领域的竞争中。TRELLIS 支持多格式输出,包括辐射场、3D 高斯和网格,为不同需求提供最大灵活性。优质公共数据集:10 个优质教程精选:6 个社区文章精选:8 篇热门百科词条:5 条1 月截稿顶会:7 个。原创 2025-01-13 17:33:50 · 1663 阅读 · 0 评论 -
在线运行 Llama 3.3 唯一开源 70B 模型,性能堪比 405B!LaTeX OCR 数据集上线,助力数学公式识别
MangaZero 数据集是一个专为漫画生成任务设计的大规模、多角色、多状态的漫画图像数据集,具体包含 43,264 页漫画和 427,147 个带注释的面板,支持在连续帧中可视化各种角色互动和动作,适用于多角色、多状态的漫画生成任务。该数据集是一个包含 3,371 张飞机图像的数据集,这些图像被分为 10 个类别文件夹,每个类别对应一个特定的飞机型号:A10、A400M、AG600、AH64、AV8B、An124、An22、An225、An72 和 B1 等。本文是对该公司的详细报道,点击速看。原创 2024-12-31 16:41:29 · 973 阅读 · 0 评论 -
Google DeepMind 推出了 SynthID-Text 技术,为 AI 内容监管提供了解决方案
11.18-11.22Weekly Highlights原创 2024-11-22 17:17:22 · 1246 阅读 · 0 评论 -
攻克OCR手写识别难点!InkSight教程上线,实现高精度转写;iNatSounds数据集发布,含23万自然物种音频
11.11-11.15Weekly Highlights原创 2024-11-18 16:34:41 · 1370 阅读 · 0 评论 -
极速体验最新版 Gradio 5!超 200 万用户使用;入选 ACCV’24,LoLI-Street 低光照图像增强数据集上线
10.21-10.25 Weekly Highlights!原创 2024-10-25 18:53:10 · 889 阅读 · 0 评论 -
一键部署Phi 3.5 mini+vision!多模态阅读基准数据集MRR-Benchmark上线,含550个问答对
近日,在上海交通大学 AI for Bioengineering 暑期学校活动中,钟博子韬博士以「AlphaFold 3:原理,应用与展望」为题,系统性地梳理了他的学习心得,并广泛整理了来自科研界的众多相关研究成果,向大家分享了他对于 AlphaFold 3 的深刻洞察,本文是演讲的核心内容梳理。复旦大学团队提出了一种新的微型化重构光谱仪设计,结合了传统光谱仪和计算重构光谱仪的优势,通过集成的自参考窄带滤波通道,使得人工智能算法可以在更高维度的参数空间进行光谱和算法参数的同时搜索。小模型又又又卷起来了!原创 2024-09-06 18:27:11 · 1178 阅读 · 0 评论
分享