10k 星开源数据处理工具一键启动！支持 176 种语言识别；首个高层坠物检测数据集上线，含 18 个场景的近 2k 个视频...-CSDN博客

在人工智能领域，多模态数据处理一直是个难题。面对复杂的 PDF、网页和多种格式电子书，有效提取关键信息并非易事。

上海人工智能实验室和 OpenDataLab 团队推出了开源智能数据提取工具——MinerU，它能够将包含图片、公式、表格等元素的多模态 PDF 文档转化为易于分析的 Markdown 格式，同时支持从网页和电子书中提取内容，解决了从复杂文档中自动提取高质量数据的需求。

hyper.ai 官网现已上线「MinerU 一站式数据提取工具 Demo」， 下拉文章获取链接~

8 月 26 日-8 月 30 日，hyper.ai 官网更新速览：

优质教程精选：3 个
优质公共数据集：10 个
社区文章精选：3 篇
热门百科词条：5 条
9 月截稿顶会：7 个

访问官网：hyper.ai

公共教程精选

1. MinerU 一站式数据提取工具

MinerU 是一款将 PDF 转化为机器可读格式的工具（如 markdown、json），可轻松提取为任何格式，支持 176 种语言的准确识别，进行精准的语言类型鉴定。模型与环境已经部署完毕，根据教程指引即可使用大模型进行推理生成。

直接使用： https://go.hyper.ai/MIitP

2. 一键部署 LongWriter-glm4-9b

LongWriter 是清华大学开发的一个开源项目，使用长上下文大型语言模型 (LLM) 生成超长文本（超过 10,000 字）。该教程为模型一键部署 Demo，只需克隆并启动该容器，直接复制生成的 API 地址，即可对模型进行推理体验。

直接使用： https://go.hyper.ai/Xvktt

3. 在线教程 | 青岛小哥焦恩俊魂穿黑神话悟空？MuseV + MuseTalk 打造高质量数字人

使用传统的数字人训练方案生成一个高质量的数字人，常常需要大量的时间和算力资源，同时对训练素材的要求也较高。MuseV 和 MuseTalk 的出现为数字人领域带来了新的突破，使用 MuseV 生成数字人视频后，再使用 MuseTalk 实现唇形和音频的同步，短短几分钟内即可实现完整的数字人制作。均已上线至 hyper.ai 的公共教程模块，一键克隆即可在线运行！

MuseV 教程： https://go.hyper.ai/9fExW

MuseTalk 教程： https://go.hyper.ai/wiw8g

公共数据集精选

1. FADE 建筑物周围坠落物体检测数据集

FADE 数据集包含 1,881 个视频，涵盖 18 个场景、 8 种不同类别的坠落物体、4 种不同的天气条件以及 4 种视频分辨率。FADE 数据集的多样性和专业性使其成为研究建筑物周围坠落物体检测的宝贵资源。

直接使用： https://go.hyper.ai/8u8Sr

2. ChiPBench Al 芯片布局算法数据集

ChiPBench 是一个全面的基准，专门用于评估现有基于 AI 的芯片布局算法在改善最终设计 PPA 指标方面的有效性。研究团队收集了来自不同领域（例如 CPU 、GPU 和微控制器）的 20 个电路。这些设计可以评估布局算法对最终设计 PPA 的影响。

直接使用： https://go.hyper.ai/LN4Ab

3. Human Faces Dataset 人脸数据集

该数据集包含约 9.6k 张人脸图像，其中 5k 张为真实人脸图像，4.63k 张为 AI 生成的人脸图像。

直接使用： https://go.hyper.ai/N5nVT

4. TableBench 表格问答基准数据集

该数据集包含 18 个领域的 886 个样本，旨在促进事实核查、数字推理、数据分析和可视化任务。

直接使用： https://go.hyper.ai/Qcs2F

5. Deepfake Detection 视频识别数据集

该数据集包含超过 363 个原创片段，其中有 28 位演员在 16 个不同的场景中的表演。这些高质量的视频为在真实内容上训练模型提供了坚实的基础。除了原始数据外，数据集还包含使用 DeepFakes 方法生成的 3k 多个经过处理的视频。

直接使用： https://go.hyper.ai/Jw59B

6. Vehicle Classification 交通工具图像分类数据集

该数据集专为交通工具分类任务而设计，共包含 5.6k 张图像，分为 7 个类别。每个类别代表不同类型的车辆（自动人力车、自行车、汽车、摩托车、飞机、船舶、火车），所有图像均为 JPEG 格式，扩展名为 .jpg 。非常适合构建和测试图像分类模型以区分不同类型的车辆。

直接使用： https://go.hyper.ai/e9LNg

7. Detection On Tracks 轨道上的人类行为检测数据集

该数据集包含 3,766 张人类在铁路轨道上的行为图片，分辨率为 1,080×1,080。每幅图像都带有边界框注释，标记人类的存在及其在铁路轨道上的行为。

直接使用： https://go.hyper.ai/dsr49

8. Ref-AVS 音频-视觉场景分割数据集

Ref-AVS 数据集是一个用于音频-视觉场景中的对象分割任务的基准，数据集包含 48 个可听对象的视频，具体分类为：20 种乐器，8 种动物，15 种机器，5 种人类。

直接使用： https://go.hyper.ai/pGHwm

9. COSMOS 1050K 医学图像分割数据集

该数据集包括了研究团队整理的 53 个医学公开数据集，涵盖 18 种模态、84 个对象、1050K 个 2D 图像和 6033 个蒙版。

直接使用： https://go.hyper.ai/nHETv

10. 含 14 万张图像！HUST-OBC 甲骨文数据集，助力团队摘冠 ACL 最佳论文

该数据集是华中科技大学白翔教授研究团队的王鹏杰等人，提出的高质量 HUST-OBC 数据集，从 3 种不同的来源收集，包括书籍、网站和现有数据集。数据集包含两种类型的甲骨文样本图像，其一是从原始甲骨文拓片的处理扫描中获取甲骨文图像，其二是基于原始甲骨的手写甲骨文图像，进一步细分为基于拓片描摹的图像和基于字形的手写图像。

直接使用： https://go.hyper.ai/46AiA

更多公共数据集，请访问：

https://hyper.ai/datasets

社区文章精选

牛津大学团队开发了名为 Medical SAM 2 的医学图像分割模型，该模型基于 SAM 2 框架设计，将医学图像视作视频，不仅在 3D 医学图像分割任务上表现卓越，同时还解锁了一种新的单次提示分割的能力。本文是对研究论文的详细解读与分享。

查看完整报道： https://go.hyper.ai/04VFX

2. AI for Genomics丨空间转录组数据表征算法 SPACE，基因组学的人工智能应用

在「Meet AI4S」系列直播第二期中，清华大学生命科学学院张强锋实验室博士后李雨哲，以「探索基因组学的 AI 应用：以空间转录组数据表征算法 SPACE 为例」为题，分享了团队的最新研究成果，本文是他的演讲精华实录，干货满满。

查看完整报道： https://go.hyper.ai/eRQeT

3. 上海交大洪亮教授：AI 真要突破工程领域，一定要做到现有人类专家做不到的工程成果

在 AI for Bioengineering 暑期学校活动中，上海交通大学洪亮教授以「AI 走进生活和科学」为题，深入浅出地分享了 AI 在科学研究领域，特别是蛋白设计领域的应用，以及他对 AI for Science 未来发展的展望。本文是洪亮教授的演讲精华实录。

查看完整报道： https://go.hyper.ai/TWBIk