Mineru保姆级部署教程

目录

1. 拉取mineru代码

2. 安装magic-pdf

3. 下载模型文件

1. 从modelscope下载模型(推荐)

2. 从 Hugging Face 下载模型

4. 修改配置文件以进行额外配置(针对想使用GPU加速的同学)

5. demo测试


MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 

1. 拉取mineru代码

地址:GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。

命令:

git clone https://github.com/opendatalab/MinerU.git
cd Mineru

2. 安装magic-pdf

这里创建一个虚拟环境,官方推荐python版本3.10

conda create -n mineru python=3.10
conda activate mineru
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

3. 下载模型文件

1. 从modelscope下载模型(推荐)

官方地址:魔搭社区

pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py

# 进入download_models.py文件所在目录
cd scripts
python download_models.py

2. 从 Hugging Face 下载模型

pip install huggingface_hub
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py

cd scripts
python download_models_hf.py

python脚本会自动下载模型文件并配置好配置文件中的模型目录,配置文件可以在用户目录中找到,文件名为magic-pdf.json

windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"

4. 修改配置文件以进行额外配置(针对想使用GPU加速的同学)

完成第3步骤后,脚本会自动生成用户目录下的magic-pdf.json文件,并自动配置默认模型路径。 您可在【用户目录】下找到magic-pdf.json文件。windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"

magic-pdf.json文件如下:

{
    "bucket_info": {
        "bucket-name-1": [
            "ak",
            "sk",
            "endpoint"
        ],
        "bucket-name-2": [
            "ak",
            "sk",
            "endpoint"
        ]
    },
    "models-dir": "/Users/chenbailin/.cache/modelscope/hub/models/opendatalab/PDF-Extract-Kit-1___0/models",
    "layoutreader-model-dir": "/Users/chenbailin/.cache/modelscope/hub/models/ppaanngggg/layoutreader",
    "device-mode": "cpu",
    "layout-config": {
        "model": "doclayout_yolo"
    },
    "formula-config": {
        "mfd_model": "yolo_v8_mfd",
        "mfr_model": "unimernet_small",
        "enable": true
    },
    "table-config": {
        "model": "rapid_table",
        "sub_model": "slanet_plus",
        "enable": true,
        "max_time": 400
    },
    "llm-aided-config": {
        "formula_aided": {
            "api_key": "your_api_key",
            "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
            "model": "qwen2.5-7b-instruct",
            "enable": false
        },
        "text_aided": {
            "api_key": "your_api_key",
            "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
            "model": "qwen2.5-7b-instruct",
            "enable": false
        },
        "title_aided": {
            "api_key": "your_api_key",
            "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
            "model": "qwen2.5-32b-instruct",
            "enable": false
        }
    },
    "config_version": "1.1.1"
}

如果你的机器支持GPU 可更改magic-pdf.json中的参数 device-mode = "cuda" 

注意这里要求cuda版本 >= 12.1,如显示的版本号小于12.1,请升级驱动

如没有驱动,则通过如下命令

sudo apt-get update
sudo apt-get install nvidia-driver-545

安装专有驱动,安装完成后,重启电脑

reboot

如果已安装conda,可以跳过本步骤

wget -U NoSuchBrowser/1.0 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2024.06-1-Linux-x86_64.sh
bash Anaconda3-2024.06-1-Linux-x86_64.sh

为ocr开启cuda加速 下载paddlepaddle-gpu, 安装完成后会自动开启ocr加速

python -m pip install paddlepaddle-gpu==3.0.0rc1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

运行以下命令测试ocr加速效果

magic-pdf -p small_ocr.pdf -o ./output

CUDA加速是否生效可以根据log中输出的各个阶段cost耗时来简单判断,通常情况下,ocr cost应提速10倍以上。

5. demo测试

找到代码中的这个文件 ./Mineru/demo/demo.py

cd Mineru/demo
python demo.py

最后会在当前运行目录下创建output/images,并将结果存放到其中,其他详细问题可以在评论区咨询或参考中文文档MinerU/README_zh-CN.md at master · opendatalab/MinerU · GitHub

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值