MinerU本地化部署教程——一款AI知识库建站的必备工具

前言:来一个官方一点的介绍:MinerU是一个一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、markdown 等格式的内容。

MinerU可以用来做什么?

现在很多公司和个人都喜欢借助例如 MaxKB、Dify、AnythingLLM等开源平台搭建私有化知识库平台。但是私有文档很多是PDF文件,RAG索引对PDF文件的处理效果有限,特别是如果还有图片内容,识别解析度准确度会更低。所以需要使用更适合的文档类型来提高识别的准确度,例如markdown文件等。

下面是直接安装客户端的版本(备注:客户端版本会使用在线网络)。

下载minerU,客户端版本下载地址:

https://mineru.net/

安装完成以后,可以直接上传文件进行解析。注意,这儿上传的文件,会被传输到远程的线上默认环境进行解析。

解析成功以后,本地会有输出的解析目录,如下所示。假如你用MaxKB的情况下,需要把images和full.md一起打包成zip压缩包丢给它。

举个例子,例如我使用MaxKB做知识库,把打包好的zip压缩包上传为知识库。

过程此处省略,直接看最终的测试效果,可以自动匹配相关内容,以及关联的图片输出。

但是使用客户端的minerU,毕竟文档会被上传到云端,如果遇到私密的文档,还可能存在消息泄露的隐患。所以需要本地化部署minerU来解决这个问题,毕竟本地才最安全。接下来开始本地化部署操作教程。

以下内容教程,基于Windows系统进行操作。

本地安装minerU之前,需要确保你的电脑上已经安装有Conda环境,如果有显卡资源(8G显存起步),还需要提前安装好Cuda环境、显卡驱动等。这部分安装我就不多描述了,此处默认大家已经安装。

使用conda命令,创建虚拟环境。此处指定python为3.10版本。

conda create -n mineru python=3.10

创建成功以后,激活conda环境。

conda activate mineru

安装magic-pdf环境,主要解析工具是这个。如果本身不怕墙的,阿里云镜像后缀可以不需要。

pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

安装完成以后,使用以下命令可以进行查看当前安装成功的版本。

magic-pdf --version

安装成功以后,还要继续安装 modelscope环境:

pip install modelscope

接下来,咱们在本地克隆一份minerU项目下来,后面会使用到:

git clone https://gitee.com/myhloli/MinerU.git

这conda环境下,目录定位到minerU项目的脚本文件夹路径下:

执行里面的download_models.py脚本,会自动开始下载有关模型文件

下载完成以后,会自动配置好配置文件,配置文件位于你自己电脑上的 C:\Users\用户名 路径下

接着定位到项目的demo路径下,可以看到里面有测试使用的三个pdf文件

先使用CPU执行一下,看下解析度测试效果,输出到当前路径下的output目录下

magic-pdf -p small_ocr.pdf -o ./output

执行以后,可以看到输出了md文件,以及其他一些杂项。打开MD文件和原始的PDF文件数据进行比对看效果,初步看起来识别是成功的。

如果本地有显卡资源,显存大于8GB的用户,可以安装cuda版本pytorch有关环境进行操作。先安装指定cuda版本的pytorch有关环境:

pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

我在安装期间报错了,看提示内容,是依赖的numpy包环境版本冲突。

上numpy库进行查看numpy的所有版本,找到一个不冲突进行代替,找到1.2x版本最新的是1.26.4,那咱们就用这个版本来代替吧。

直接安装1.26.4版本
pip install numpy==1.26.4

在magic-pdf的配置文件内,找到device-mode属性,把默认大模式是cpu改为cuda

改为cuda

修改完毕,直接运行,这次换一个带有图片的demo1.pdf,执行期间也可以看到输出日志,选择了cuda(显卡资源)来执行。

经过短暂的运行以后,跑完以后在指定输出的output文件夹下面,可以看到PDF文件被解析成功了,输出量md文件类型,并且里面的图片也被对应处理,放到了images文件夹下。

至此,一切准备就绪,接下来就可以对自己的PDF文档进行处理啦!

以上就是minerU本地安装配置的全部过程。没了。

如果本文章对你有帮助,欢迎点赞转发或留言,也欢迎扫码快捷关注我的公众号 Dotnet Dancer:

<think>好的,我现在需要帮助用户解决如何在本地部署LangFlow的问题。用户可能遇到了困难,需要一步步的指导。首先,我需要了解LangFlow是什么,以及它的部署要求。 LangFlow是一个基于Python的工具,可能用于自然语言处理或其他相关任务。本地部署通常涉及安装依赖、配置环境、运行服务等步骤。我需要回忆是否有相关的官方文档或者社区教程可以参考。 用户提到的错误引用,比如部署时的artifact错误和Tomcat配置问题,可能与Java项目有关,但LangFlow可能是Python项目,所以可能需要不同的部署方法。需要确保用户的环境满足Python版本要求,是否有需要安装的包,比如pip、virtualenv等。 接下来,我应该分步骤编写部署指南。首先安装Python和Git,然后克隆仓库,安装依赖,配置环境变量(如果有的话),最后运行应用。可能还需要处理端口冲突或依赖项版本问题。 需要检查用户是否可能遇到常见问题,例如端口被占用、依赖安装失败、环境变量未正确设置等。此外,用户可能需要访问本地服务器地址,如http://localhost:7860,并确保防火墙允许该端口。 在生成相关问题时,要考虑用户可能的后续疑问,比如自定义配置、Docker部署、调试方法、依赖冲突解决和界面访问问题。这些问题应该覆盖用户部署后可能遇到的挑战。 最后,确保回答结构清晰,使用中文,遵循格式要求,如行内数学公式(虽然这里可能用不上),正确的LaTeX语法,引用标识等。需要参考用户提供的引用,但注意这些引用主要与Java部署错误相关,可能与当前问题无关,所以可能不需要直接引用,但需要按照格式添加。 总结步骤:确认环境准备、克隆代码、安装依赖、运行应用、访问界面,并提供常见问题解决方案。同时生成相关问题,帮助用户进一步探索。</think>### 本地部署LangFlow指南 #### 1. 环境准备 - **Python 3.7+**: 确保系统已安装Python,并验证版本: ```bash python --version ``` - **Git**: 用于克隆仓库,执行`git clone https://github.com/logspace-ai/langflow.git`[^1]。 #### 2. 克隆代码库 ```bash git clone https://github.com/logspace-ai/langflow.git cd langflow ``` #### 3. 安装依赖 - 使用`requirements.txt`安装必要包: ```bash pip install -r requirements.txt ``` 若遇到依赖冲突,尝试虚拟环境: ```bash python -m venv venv source venv/bin/activate # Linux/macOS venv\Scripts\activate # Windows ``` #### 4. 运行LangFlow服务 - 启动开发服务器: ```bash python src/main.py ``` 默认端口为`7860`。若需修改端口: ```bash python src/main.py --port 8080 ``` #### 5. 访问界面 打开浏览器访问 `http://localhost:7860`。若无法连接,检查: - 防火墙是否开放端口 - 服务是否成功启动(查看控制台日志) #### 常见问题 - **依赖安装失败**:尝试升级pip或指定版本: ```bash pip install --upgrade pip pip install package==version ``` - **端口冲突**:关闭占用端口的进程或更换端口。 - **环境变量问题**:若需配置数据库或API密钥,在`.env`文件中设置[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值