目录
4. 修改配置文件以进行额外配置(针对想使用GPU加速的同学)
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
1. 拉取mineru代码
命令:
git clone https://github.com/opendatalab/MinerU.git
cd Mineru
2. 安装magic-pdf
这里创建一个虚拟环境,官方推荐python版本3.10
conda create -n mineru python=3.10
conda activate mineru
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
3. 下载模型文件
1. 从modelscope下载模型(推荐)
pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
# 进入download_models.py文件所在目录
cd scripts
python download_models.py
2. 从 Hugging Face 下载模型
pip install huggingface_hub
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py
cd scripts
python download_models_hf.py
python脚本会自动下载模型文件并配置好配置文件中的模型目录,配置文件可以在用户目录中找到,文件名为magic-pdf.json
windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"
4. 修改配置文件以进行额外配置(针对想使用GPU加速的同学)
完成第3步骤后,脚本会自动生成用户目录下的magic-pdf.json文件,并自动配置默认模型路径。 您可在【用户目录】下找到magic-pdf.json文件。windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"
magic-pdf.json文件如下:
{
"bucket_info": {
"bucket-name-1": [
"ak",
"sk",
"endpoint"
],
"bucket-name-2": [
"ak",
"sk",
"endpoint"
]
},
"models-dir": "/Users/chenbailin/.cache/modelscope/hub/models/opendatalab/PDF-Extract-Kit-1___0/models",
"layoutreader-model-dir": "/Users/chenbailin/.cache/modelscope/hub/models/ppaanngggg/layoutreader",
"device-mode": "cpu",
"layout-config": {
"model": "doclayout_yolo"
},
"formula-config": {
"mfd_model": "yolo_v8_mfd",
"mfr_model": "unimernet_small",
"enable": true
},
"table-config": {
"model": "rapid_table",
"sub_model": "slanet_plus",
"enable": true,
"max_time": 400
},
"llm-aided-config": {
"formula_aided": {
"api_key": "your_api_key",
"base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
"model": "qwen2.5-7b-instruct",
"enable": false
},
"text_aided": {
"api_key": "your_api_key",
"base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
"model": "qwen2.5-7b-instruct",
"enable": false
},
"title_aided": {
"api_key": "your_api_key",
"base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
"model": "qwen2.5-32b-instruct",
"enable": false
}
},
"config_version": "1.1.1"
}
如果你的机器支持GPU 可更改magic-pdf.json中的参数 device-mode = "cuda"
注意这里要求cuda版本 >= 12.1,如显示的版本号小于12.1,请升级驱动
如没有驱动,则通过如下命令
sudo apt-get update
sudo apt-get install nvidia-driver-545
安装专有驱动,安装完成后,重启电脑
reboot
如果已安装conda,可以跳过本步骤
wget -U NoSuchBrowser/1.0 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2024.06-1-Linux-x86_64.sh
bash Anaconda3-2024.06-1-Linux-x86_64.sh
为ocr开启cuda加速 下载paddlepaddle-gpu, 安装完成后会自动开启ocr加速
python -m pip install paddlepaddle-gpu==3.0.0rc1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
运行以下命令测试ocr加速效果
magic-pdf -p small_ocr.pdf -o ./output
CUDA加速是否生效可以根据log中输出的各个阶段cost耗时来简单判断,通常情况下,ocr cost
应提速10倍以上。
5. demo测试
找到代码中的这个文件 ./Mineru/demo/demo.py
cd Mineru/demo
python demo.py
最后会在当前运行目录下创建output/images,并将结果存放到其中,其他详细问题可以在评论区咨询或参考中文文档MinerU/README_zh-CN.md at master · opendatalab/MinerU · GitHub