一款一站式、开源、高质量的数据提取工具(支持PDF/网页/多格式电子书提取)...

ec7e8760278c8a54f7a30ca9992a3096.png

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!

项目介绍

MinerU 是一款一站式、开源、高质量的数据提取工具,支持PDF/网页/多格式电子书提取。包含Magic-PDF和Magic-Doc两个核心功能。

Magic-PDF

Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。

  • 功能定位:PDF文档转换为Markdown格式。

  • 支持输入:多种前端模型输入。

  • 内容处理:移除头部、尾部、脚注和页码,保留原文档结构和格式。

  • 特殊元素:提取和显示图像和表格,将方程转换为LaTeX格式。

  • 自动检测:自动检测和转换乱码PDF。

  • 兼容性:支持CPU和GPU环境,适用于Windows、Linux、macOS平台。

1284e9b91da98b69007ab70527a5450a.png 16c34cdd7cebf8bae421a6200f108196.png f8dab6d30370b9c5b9bb49183ae7aa3e.png

Magic-Doc

Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。

  • 功能定位:将网页或多格式电子书转换为Markdown格式。

  • 跨模态解析:精确解析文本、图像、表格和公式信息。

  • 文档格式支持:支持epub、mobi等多种文档格式。

  • 语言识别:准确识别176种语言。

cd37d52529a04ee799faade62b73d416.png 7ec34ea7b45dfee3c7024c9bd25e618f.png 3b2a372c0bee70fb7a9f09b2d852830e.png

开源地址

https://github.com/opendatalab/MinerU

e92e1b5c7e6ad11fee923de48f689ba0.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值