Mineru保姆级部署教程

目录

1. 拉取mineru代码

2. 安装magic-pdf

3. 下载模型文件

1. 从modelscope下载模型(推荐)

2. 从 Hugging Face 下载模型

4. 修改配置文件以进行额外配置(针对想使用GPU加速的同学)

5. demo测试


MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 

1. 拉取mineru代码

地址:GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。

命令:

  1. git clone https://github.com/opendatalab/MinerU.git
  2. cd Mineru

2. 安装magic-pdf

这里创建一个虚拟环境,官方推荐python版本3.10

  1. conda create -n mineru python=3.10
  2. conda activate mineru
  3. pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

3. 下载模型文件

1. 从modelscope下载模型(推荐)

官方地址:魔搭社区

  1. pip install modelscope
  2. wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
  3. # 进入download_models.py文件所在目录
  4. cd scripts
  5. python download_models.py

2. 从 Hugging Face 下载模型

  1. pip install huggingface_hub
  2. wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py
  3. cd scripts
  4. python download_models_hf.py

python脚本会自动下载模型文件并配置好配置文件中的模型目录,配置文件可以在用户目录中找到,文件名为magic-pdf.json

windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"

4. 修改配置文件以进行额外配置(针对想使用GPU加速的同学)

完成第3步骤后,脚本会自动生成用户目录下的magic-pdf.json文件,并自动配置默认模型路径。 您可在【用户目录】下找到magic-pdf.json文件。windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"

magic-pdf.json文件如下:

  1. {
  2. "bucket_info": {
  3. "bucket-name-1": [
  4. "ak",
  5. "sk",
  6. "endpoint"
  7. ],
  8. "bucket-name-2": [
  9. "ak",
  10. "sk",
  11. "endpoint"
  12. ]
  13. },
  14. "models-dir": "/Users/chenbailin/.cache/modelscope/hub/models/opendatalab/PDF-Extract-Kit-1___0/models",
  15. "layoutreader-model-dir": "/Users/chenbailin/.cache/modelscope/hub/models/ppaanngggg/layoutreader",
  16. "device-mode": "cpu",
  17. "layout-config": {
  18. "model": "doclayout_yolo"
  19. },
  20. "formula-config": {
  21. "mfd_model": "yolo_v8_mfd",
  22. "mfr_model": "unimernet_small",
  23. "enable": true
  24. },
  25. "table-config": {
  26. "model": "rapid_table",
  27. "sub_model": "slanet_plus",
  28. "enable": true,
  29. "max_time": 400
  30. },
  31. "llm-aided-config": {
  32. "formula_aided": {
  33. "api_key": "your_api_key",
  34. "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
  35. "model": "qwen2.5-7b-instruct",
  36. "enable": false
  37. },
  38. "text_aided": {
  39. "api_key": "your_api_key",
  40. "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
  41. "model": "qwen2.5-7b-instruct",
  42. "enable": false
  43. },
  44. "title_aided": {
  45. "api_key": "your_api_key",
  46. "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
  47. "model": "qwen2.5-32b-instruct",
  48. "enable": false
  49. }
  50. },
  51. "config_version": "1.1.1"
  52. }

如果你的机器支持GPU 可更改magic-pdf.json中的参数 device-mode = "cuda" 

注意这里要求cuda版本 >= 12.1,如显示的版本号小于12.1,请升级驱动

如没有驱动,则通过如下命令

  1. sudo apt-get update
  2. sudo apt-get install nvidia-driver-545

安装专有驱动,安装完成后,重启电脑

reboot

如果已安装conda,可以跳过本步骤

  1. wget -U NoSuchBrowser/1.0 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2024.06-1-Linux-x86_64.sh
  2. bash Anaconda3-2024.06-1-Linux-x86_64.sh

为ocr开启cuda加速 下载paddlepaddle-gpu, 安装完成后会自动开启ocr加速

python -m pip install paddlepaddle-gpu==3.0.0rc1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/

运行以下命令测试ocr加速效果

magic-pdf -p small_ocr.pdf -o ./output

CUDA加速是否生效可以根据log中输出的各个阶段cost耗时来简单判断,通常情况下,ocr cost应提速10倍以上。

5. demo测试

找到代码中的这个文件 ./Mineru/demo/demo.py

  1. cd Mineru/demo
  2. python demo.py

最后会在当前运行目录下创建output/images,并将结果存放到其中,其他详细问题可以在评论区咨询或参考中文文档MinerU/README_zh-CN.md at master · opendatalab/MinerU · GitHub

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

举报

选择你想要举报的内容(必选)
  • 内容涉黄
  • 政治相关
  • 内容抄袭
  • 涉嫌广告
  • 内容侵权
  • 侮辱谩骂
  • 样式问题
  • 其他
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回顶部

登录后您可以享受以下权益:

×