
每周编辑精选
文章平均质量分 90
精选每周上新的公共教程、数据集以及 AI4S 论文解读等内容,干货满满
HyperAI超神经
链接人工智能新场景
展开
-
「吉卜力」画风生成神器—EasyControl 一键启动;单图秒变 3D 模型,TripoSG 革新 3D 资产生成
该模型在 LiveCodeBench v5 (8/1/24-2/1/25) 上实现了 60.6% 的 Pass@1 准确率,比基本模型 (53%) 提高了 8%,并且只用 14B 参数实现了与 OpenAI 的 o3-mini 相似的性能。该模型基于 Qwen2.5-VL 在 R1-Onevision 数据集上微调而成,擅长处理复杂的视觉推理任务,无缝整合视觉和文本数据,在数学、科学、深度图像理解和逻辑推理等领域表现出色,可作为强大的 AI 助手解决各种问题。近期,吉卜力风格的图像席卷各大社交媒体。原创 2025-04-27 16:14:02 · 619 阅读 · 0 评论 -
Stable Virtual Camera 重新定义3D内容生成,解锁图像新维度;BatteryLife助力更精准预测电池寿命
该数据集为 NVIDIA 于 GTC25 大会上发布的物理 AI 数据集,包含 15 TB 的数据,超过 320,000 条用于机器人训练的轨迹,以及多达 1,000 个通用场景描述 (OpenUSD) 资产,包括 SimReady 集合,涵盖了不同类型的道路和地理环境、不同的基础设施和不同的天气环境。数据集内含多个视觉场景,每个问题都配有 2 到 8 张图像,这些图像与文本交织在一起,形成复杂的多视觉场景,更贴近现实世界中的数学问题,能够有效评估模型处理多视觉信息的推理能力。原创 2025-03-28 17:13:20 · 1270 阅读 · 0 评论 -
扩散模型×音乐生成,DiffRhythm 分分钟完成歌曲创作!低门槛部署大语言模型,MiniMind 数据集重磅开源
来自剑桥大学的研究团队提出了一个名为 Celcomen 的虚拟组织模型,不仅能估计环境对单个细胞的影响,还能推测单个细胞对其周围环境及整体组织的影响,研究人员通过自一致性合成数据和真实世界数据实验验证了 Celcomen 模型在因果结构学习和解开因果关系方面的可识别性以及在真实和自模拟的空间转录组学数据中解开并恢复基因-基因相互作用的能力。该数据集包含用于对不同类型的垃圾进行分类和检测的图像和 YOLO 格式的注释,类别分别为:塑料、纸张和纸板、玻璃/金属、有机、废物、纺织品和电子产品(电子垃圾)。原创 2025-03-25 16:21:47 · 603 阅读 · 0 评论 -
开源顶流集结!QwQ-32B 解锁多元玩法,OpenManus 低成本构建 AI 智能体!vLLM v1 赋能高效模型推理
澳大利亚西澳大学等团队,提出了使用基于深度学习的自动化框架,该研究利用印度尼西亚一家医院的 200 次颅骨 CT 扫描,训练并测试了 3 种基于深度学习的网络配置,其中最准确的深度学习框架能够将性别和颅骨特征结合在一起进行判断,分类准确率可达 97%,显著高于人类观察者的 82%。R1-Onevision 数据集旨在赋予模型高级的多模态推理能力,它通过在自然场景、科学、数学问题、基于 OCR 的内容和复杂图表等多个领域的丰富、上下文感知的推理任务,弥合视觉和文本理解之间的差距。本文是数据集下载地址。原创 2025-03-14 16:13:37 · 1048 阅读 · 0 评论 -
Ebook2Audiobook 一键将电子书转有声读物;CVPR 首届跨域小样本对象检测挑战赛数据集上线
然而,YOLOv12 的推出改变了这一局面。澳大利亚西澳大学等团队,提出了使用基于深度学习的自动化框架,该研究利用印度尼西亚一家医院的 200 次颅骨 CT 扫描,训练并测试了 3 种基于深度学习的网络配置,其中最准确的深度学习框架能够将性别和颅骨特征结合在一起进行判断,分类准确率可达 97%,显著高于人类观察者的 82%。该数据集旨在通过高质量的标注数据,提升法律文书生成模型的性能,特别是在法律推理和文书撰写方面的能力,适用于法律智能系统、法律文书自动生成、法律问答系统等多种应用场景。原创 2025-03-07 19:06:24 · 864 阅读 · 0 评论 -
超11w下载,OpenThoughts-114k推理数据集上线;首个AI短剧创作神器SkyReels-V1来了!告别高成本长周期
Owkin 公司立志实现生物学领域的首个AGI,已经解决了大众最担心的患者数据隐私问题,通过整合不同机构的多模态数据,为精准医疗提供了可靠的决策依据,助力乳腺癌、直肠癌等癌症的诊断和药物研发,已与赛诺菲、BMS 和阿斯利康等制药巨头合作。按照教程步骤操作,只需描述心中所想,即可生成高分辨率视频。它基于 Llama3.3-70B-Instruct 进行训练,采用强化学习和蒸馏技术提升推理表现,不仅继承了 Llama 系列模型的优势,还在此基础上进一步优化了推理能力,尤其在数学、代码与逻辑推理任务中表现突出。原创 2025-02-28 15:29:31 · 1102 阅读 · 0 评论 -
微软与腾讯技术交锋,TRELLIS引领3D生成领域多格式支持新方向
去年 11 月,腾讯推出 Hunyuan3D 生成模型,是业界首个同时支持文字和图像生成 3D 的开源大模型。紧接着不到一个月,微软便发布了全新框架 TRELLIS,加入 3D 资产生成领域的竞争中。TRELLIS 支持多格式输出,包括辐射场、3D 高斯和网格,为不同需求提供最大灵活性。优质公共数据集:10 个优质教程精选:6 个社区文章精选:8 篇热门百科词条:5 条1 月截稿顶会:7 个。原创 2025-01-13 17:33:50 · 1274 阅读 · 0 评论 -
在线运行 Llama 3.3 唯一开源 70B 模型,性能堪比 405B!LaTeX OCR 数据集上线,助力数学公式识别
MangaZero 数据集是一个专为漫画生成任务设计的大规模、多角色、多状态的漫画图像数据集,具体包含 43,264 页漫画和 427,147 个带注释的面板,支持在连续帧中可视化各种角色互动和动作,适用于多角色、多状态的漫画生成任务。该数据集是一个包含 3,371 张飞机图像的数据集,这些图像被分为 10 个类别文件夹,每个类别对应一个特定的飞机型号:A10、A400M、AG600、AH64、AV8B、An124、An22、An225、An72 和 B1 等。本文是对该公司的详细报道,点击速看。原创 2024-12-31 16:41:29 · 737 阅读 · 0 评论 -
Google DeepMind 推出了 SynthID-Text 技术,为 AI 内容监管提供了解决方案
11.18-11.22Weekly Highlights原创 2024-11-22 17:17:22 · 1062 阅读 · 0 评论 -
攻克OCR手写识别难点!InkSight教程上线,实现高精度转写;iNatSounds数据集发布,含23万自然物种音频
11.11-11.15Weekly Highlights原创 2024-11-18 16:34:41 · 1172 阅读 · 0 评论 -
3秒实现多音色混合克隆!F5/E2 TTS教程上线;PsyDTCorpus 5k 心理对话数据集发布,精准模拟心理咨询师语言风格
Weekly Highlights原创 2024-11-08 17:56:36 · 853 阅读 · 0 评论 -
极速体验最新版 Gradio 5!超 200 万用户使用;入选 ACCV’24,LoLI-Street 低光照图像增强数据集上线
10.21-10.25 Weekly Highlights!原创 2024-10-25 18:53:10 · 698 阅读 · 0 评论 -
5.2k星!突破 OCR 困境的超级变革者来了;多语言医疗大模型开源,语料库和基准数据集已提供下载
MMMLU 建立在大规模多任务语言理解 (MMLU) 基准的基础上,是人工智能模型所达到的常识性指标,包含 57 个不同学科领域的任务,涵盖了从初级知识到法律、物理、历史和计算机科学等高级专业学科。在「Meet AI4S」系列直播第三期中,上海交通大学自然科学研究院、洪亮教授课题组的博士后周子宜以「蛋白质语言模型的小样本学习方法」为题,分享了团队的最新研究成果,并探讨了 AI 辅助定向进化的新思路。这个数据集对于研究机器人遥控、自然语言处理以及人机交互等领域的科学家和开发者来说,是一个非常宝贵的资源。原创 2024-10-12 16:49:44 · 795 阅读 · 0 评论 -
一键部署Phi 3.5 mini+vision!多模态阅读基准数据集MRR-Benchmark上线,含550个问答对
近日,在上海交通大学 AI for Bioengineering 暑期学校活动中,钟博子韬博士以「AlphaFold 3:原理,应用与展望」为题,系统性地梳理了他的学习心得,并广泛整理了来自科研界的众多相关研究成果,向大家分享了他对于 AlphaFold 3 的深刻洞察,本文是演讲的核心内容梳理。复旦大学团队提出了一种新的微型化重构光谱仪设计,结合了传统光谱仪和计算重构光谱仪的优势,通过集成的自参考窄带滤波通道,使得人工智能算法可以在更高维度的参数空间进行光谱和算法参数的同时搜索。小模型又又又卷起来了!原创 2024-09-06 18:27:11 · 1031 阅读 · 0 评论 -
突破万字长文输出瓶颈!清华大学开源 LongWriter-6k 数据集;7 个 CCF A 类顶会即将截稿
近日,山东大学吕海泉、孙蓉、张凯及山西医科大学梅齐,联合螺旋矩阵公司等研究团队,取得了突破性进展,运用机器学习技术,基于 mRNA 的分析,成功开发了一种评估原发性乳腺癌患者样本中癌症干细胞特性的新方法 BCSC signature。本文是对研究论文的详细解读与分享。这个数据集包含了原始 Rider-Waite Tarot Deck 中 78 张牌的图像和相关文本描述,为研究者和艺术家提供了丰富的资源进行塔罗牌艺术和象征意义的探索,可用于训练模型生成塔罗牌风格的图像。本文是对研究论文的详细解读与分享。原创 2024-08-25 15:29:54 · 2051 阅读 · 0 评论 -
AI顶会KDD’25今日截稿!Llama 3.1中文微调数据集已上线,超大模型一键部署
7 月的 AI 圈真是卷完小模型卷大模型,精彩不停!大多数同学都能体验 GPT-4o、Mistral-Nemo 这样的小模型,但 Llama-3.1-405B 和 Mistral-Large-2 这样的超大模型让很多小伙伴犯了难。别担心!hyper.ai 官网在教程板块为大家提供了使用「Open WebUI」和使用「OpenAI 兼容 API 服务」两种方式启动这两个超大模型的教程!此外,还上线了...原创 2024-08-09 11:02:20 · 633 阅读 · 0 评论 -
AAAI‘25 今日截稿!SD 核心成员开源比 Midjourney 还强的文生图模型,现已提供一键启动
该框架统一了神经网络中损失函数的最小化与密度泛函理论中的能量泛函优化,相比传统的有监督学习方法,具有更高的准确性和效率,为发展深度学习 DFT 方法开辟了一条新的途径。最终的基准包含 2,138 个问题三元组,总共 6,414 个不同的问题,涵盖不同主题和难度级别。PubMedVision 是一个大规模且高质量的医疗多模态数据集,研究团队通过精细的数据处理方法,从 PubMed 国际医学期刊的论文中筛选出与医疗相关的图片及有信息量的图片描述,有效过滤了大量医疗无关的图片和上下文不相关内容。原创 2024-08-16 13:08:48 · 1128 阅读 · 0 评论 -
2024 Meet AI Compiler 北京线下聚会定档!千万级指令微调数据集 InfinityInstruct 开源
高质量的指令数据是训练和优化大语言模型不可或缺的资源,是提升模型性能的基石。该数据集是一个针对日文漫画的机器翻译评估数据集,包含五种不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,数据集中共包含 1,593 个句子,848 个场景画面和 214 页漫画,由东京大学 Mantra 团队发布。该数据集是一个专注于城市建筑的图像数据集,它通常包含大量的城市建筑图像,这些图像可以用于训练和评估计算机视觉模型,特别是在建筑物检测、语义分割、实例分割等任务上,相关成果已收录于 CVPR 2024。原创 2024-06-18 18:56:52 · 1026 阅读 · 0 评论 -
PhotoMaker 腾讯推出个性化图像生成新高度;LawInstruct 首个法律大型指令数据集上线
浙江大学 GIS 实验室的研究人员引入了一种神经网络方法,对观测点间的多种空间邻近性度量进行非线性耦合,得到优化的空间邻近性度量,提升了模型对房价预测的准确性。除了生成个性化人物照片以外,它还能改变人物的年龄和性别,整合不同人物的特征创造新的人物信息,是一款非常使用的 AI 绘画工具。PhotoMaker 是由腾讯与南开大学联合开发的 AI 图像生成工具,不仅能够捕捉人物的面部特征,还能根据喜好生成逼真的人物图像,将个性化定制推向了新高度。狗有 113 个 WAV 文件,对应 598 秒的音频。原创 2024-06-24 18:46:10 · 1117 阅读 · 0 评论 -
独家中字!LeCun 学生 Alfredo 春季 AI 课程开播;CVPR‘24 遥感数据集下载
近日,纽约大学计算机科学助理教授、Yann LeCun 的学生——Alfredo Canziani 公开了自己的春季「AI 课程」,内容覆盖离散概率和朴素贝叶斯、感知机和逻辑回归、优化、统计和神经自然语言处理、神经网络分类、循环神经网络和卷积神经网络等主题。该数据集是一个包括 3,300 名受试者的视网膜神经疾病(青光眼)数据集,含有 2D 和 3D 图像数据,数据集中包含了来自 3 个主要种族群体(白人、黑人和亚洲人)相等数量的受试者,这避免了可能混淆公平学习问题的数据不平衡问题。原创 2024-07-01 18:57:08 · 626 阅读 · 0 评论 -
一键运行 ComfyUI SD3!大规模医学 VQA 评测数据集上线,涉及超 20 个人体器官和部位
它能够轻松将单色图像赋予丰富的色彩,或将简单的草图转换为逼真的图像。本文是该研究的详细解读和分享。该数据集主要覆盖木质山区,树木密度较低且地形复杂,包含总计 98,949 颗树木的 1,350 张图像训练集和 1,350 张图像测试集,每张图像的平均包含 36 棵树木,为模型在复杂地形中的性能提供了重要的测试环境。该数据集涵盖了 70 种不同的语言,为低资源语言提供了更多的训练数据,含共计 182,000 个指令微调对,旨在提升大型语言模型在遵循指令方面的性能,特别是在多样化的语言和任务上。原创 2024-07-12 15:03:58 · 871 阅读 · 0 评论 -
ICML最佳论文SD3上线公共教程!DreamBench++图像自动评估新基准来了,实现人类偏好深度对齐
MMUD 中的问题涉及 2 到 20 张图像,平均图像和文本标记长度为 8.2K 个标记,最大图像和文本长度达到 18K 个标记,对现有的多模态大型模型提出了重大挑战。华中科技大学白翔、刘禹良研究团队联合阿德莱德大学、安阳师范学院、华南理工大学,利用基于图像的生成模型,训练出了一种针对甲骨文破译优化的条件扩散模型 OBSD,为自然语言处理难以解决的古文字识别任务提供了一种新颖的方法。它允许使用少量图像来训练模型,使其能够在多种不同的情境中生成该特定个体的图像,同时保持其关键的视觉特征。原创 2024-07-26 18:05:49 · 665 阅读 · 0 评论 -
Llama 3.1中文微调数据集已上线,超大模型一键部署
该数据集是一个为遥感图像理解设计的多用途视觉-语言基准数据集,包含 29,614 张经过人工验证的详细字幕图像、52,472 个对象引用和 123,221 个问答对,旨在推进通用的、大规模的遥感图像视觉-语言模型的发展。该数据集是一个专为微调大语言模型而设计的数据集,包含了大量的问答对数据,每个问题都有中文和英文两个版本的答案,并且答案中融入了趣味幽默的元素,包括表情符号 (emoji) 的使用。BoWFire 数据集是一个专门用于火焰检测的图像数据集,旨在提高火灾检测的准确性并减少误报。原创 2024-08-12 16:38:08 · 1335 阅读 · 0 评论