目录
4. 修改配置文件以进行额外配置(针对想使用GPU加速的同学)
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
1. 拉取mineru代码
命令:
- git clone https://github.com/opendatalab/MinerU.git
- cd Mineru
2. 安装magic-pdf
这里创建一个虚拟环境,官方推荐python版本3.10
- conda create -n mineru python=3.10
- conda activate mineru
- pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
3. 下载模型文件
1. 从modelscope下载模型(推荐)
- pip install modelscope
- wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
-
- # 进入download_models.py文件所在目录
- cd scripts
- python download_models.py
2. 从 Hugging Face 下载模型
- pip install huggingface_hub
- wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py
-
- cd scripts
- python download_models_hf.py
python脚本会自动下载模型文件并配置好配置文件中的模型目录,配置文件可以在用户目录中找到,文件名为magic-pdf.json
windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"
4. 修改配置文件以进行额外配置(针对想使用GPU加速的同学)
完成第3步骤后,脚本会自动生成用户目录下的magic-pdf.json文件,并自动配置默认模型路径。 您可在【用户目录】下找到magic-pdf.json文件。windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"
magic-pdf.json文件如下:
- {
- "bucket_info": {
- "bucket-name-1": [
- "ak",
- "sk",
- "endpoint"
- ],
- "bucket-name-2": [
- "ak",
- "sk",
- "endpoint"
- ]
- },
- "models-dir": "/Users/chenbailin/.cache/modelscope/hub/models/opendatalab/PDF-Extract-Kit-1___0/models",
- "layoutreader-model-dir": "/Users/chenbailin/.cache/modelscope/hub/models/ppaanngggg/layoutreader",
- "device-mode": "cpu",
- "layout-config": {
- "model": "doclayout_yolo"
- },
- "formula-config": {
- "mfd_model": "yolo_v8_mfd",
- "mfr_model": "unimernet_small",
- "enable": true
- },
- "table-config": {
- "model": "rapid_table",
- "sub_model": "slanet_plus",
- "enable": true,
- "max_time": 400
- },
- "llm-aided-config": {
- "formula_aided": {
- "api_key": "your_api_key",
- "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
- "model": "qwen2.5-7b-instruct",
- "enable": false
- },
- "text_aided": {
- "api_key": "your_api_key",
- "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
- "model": "qwen2.5-7b-instruct",
- "enable": false
- },
- "title_aided": {
- "api_key": "your_api_key",
- "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
- "model": "qwen2.5-32b-instruct",
- "enable": false
- }
- },
- "config_version": "1.1.1"
- }
如果你的机器支持GPU 可更改magic-pdf.json中的参数 device-mode = "cuda"
注意这里要求cuda版本 >= 12.1,如显示的版本号小于12.1,请升级驱动
如没有驱动,则通过如下命令
- sudo apt-get update
- sudo apt-get install nvidia-driver-545
安装专有驱动,安装完成后,重启电脑
reboot
如果已安装conda,可以跳过本步骤
- wget -U NoSuchBrowser/1.0 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2024.06-1-Linux-x86_64.sh
- bash Anaconda3-2024.06-1-Linux-x86_64.sh
为ocr开启cuda加速 下载paddlepaddle-gpu, 安装完成后会自动开启ocr加速
python -m pip install paddlepaddle-gpu==3.0.0rc1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
运行以下命令测试ocr加速效果
magic-pdf -p small_ocr.pdf -o ./output
CUDA加速是否生效可以根据log中输出的各个阶段cost耗时来简单判断,通常情况下,ocr cost
应提速10倍以上。
5. demo测试
找到代码中的这个文件 ./Mineru/demo/demo.py
- cd Mineru/demo
- python demo.py
最后会在当前运行目录下创建output/images,并将结果存放到其中,其他详细问题可以在评论区咨询或参考中文文档MinerU/README_zh-CN.md at master · opendatalab/MinerU · GitHub