山软智读SDSE_AIR(1)

2025年3月27日 —— 2025年4月2日      山软智读SDSE_AIR工作周记

本周我开始学习 MinerU(Magic-PDF)这一将 PDF 文档转换为结构化 Markdown/JSON 的开源工具。在当前科研或工程类项目中,PDF 文档仍然是最主要的信息载体之一。尤其是在学术研究中,几乎所有期刊论文、会议论文、技术白皮书等都以 PDF 格式发布,这种格式虽方便阅读,但对机器并不友好,结构信息不明确、不易提取,严重影响后续数据分析和再利用的效率。而许多 NLP 或知识图谱项目中,需要将海量论文“结构化”处理,抽取标题、章节、公式、图表甚至参考文献等。

传统的 PDF 解析方法,比如 PDFMiner、PyMuPDF 等,虽能提取文本,但结构识别能力弱,很难恢复文档原有的层级逻辑。而像 Grobid 或 Science Parse 虽然在特定领域(如参考文献提取)表现不错,但整体结构还原有限。因此,学习使用MinerU 能够填补这一空缺。它将多模态信息融合(视觉+文本+布局),结合大模型的上下文理解能力,达到了较好的结构还原效果。

据官方介绍,MinerU 能完整保留原文档的层级结构(包括标题、段落、列表等),并精准提取图片、表格、公式等元素(公式会被转换为 LaTeX 格式)。按照文档要求,在 Windows 系统下本地部署并运行 MinerU。

一,环境安装和配置

按照官方快速体验说明,在 Windows 上使用 conda 创建 Python 3.10 环境并安装 MinerU 的核心组件(Magic-PDF)github.com。具体步骤为:打开 Anaconda Prompt,新建并激活虚拟环境,执行

conda create -n mineru python=3.10  
conda activate mineru  

其中Anaconda Prompt在Download Anaconda Distribution | Anaconda进行下载

然后执行安装命令:

pip install -U "magic-pdf[full]"  

这个命令会安装包含完整模型的版本。安装时需注意 PyPI 源配置:部分用户反馈默认镜像会安装到较旧的版本(例如 0.6.1),导致版本低于要求。遇到这种问题时,我参考了相关博客blog.csdn.net的建议,通过指定版本号或正确的源来安装最新版(如 pip install magic-pdf[full]==1.2.1)。

完成 Magic-PDF 安装后,根据文档下载所需的模型权重文件。这一步通过官方提供的下载脚本完成,将模型存放在本地磁盘。下载完成后,工具会在用户目录(Windows 下如 C:\Users\用户名)自动生成一个 magic-pdf.json 配置文件,其中包含默认的模型路径。这样就完成了准备工作。

二,PDF 转换

准备测试 PDF 文件

在项目根目录下创建 data/papers/ 文件夹:

mkdir data\papers

环境安装完成后,可以选论文 PDF 作为测试输入。在命令行中使用 Magic-PDF 提供的接口执行转换。

magic-pdf pdf-command --pdf "论文.pdf" --inside_model true  

也可以运行以下命令提取 Markdown:

python infer.py ^
 --pdf_path data/papers/论文.pdf ^
 --pdf_output_path outputs ^
 --structure_type markdown

转换过程可能耗时较久,完成后工具会生成一个 Markdown 文档(及可选的 JSON 中间格式)。输出文件会被保存到 执行后,在输出目录中可以看到与输入 PDF 相对应的 .md 文件及资源文件夹。

在 Markdown 文档中,可以看到论文的结构信息被很好地保留。

以上为本周山软智读SDSE_AIR的全部工作内容

                                                                       SDSE_AIR山软智读项目研发小组 BluebIueblue

### 关于 DeepSeek 的学术论文 #### 探索 DeepSeek 在图像识别中的应用与优化 为了探讨深度学习在图像识别领域内的具体应用场景及其优化措施,可以考虑如下主题:“Exploring the Application and Optimization of Deep Learning in Image Recognition with DeepSeek”。此题目不仅涵盖了深度神经网络技术的实际运用案例分析,还深入研究了如何通过算法改进来提升模型性能[^1]。 #### 解 DeepSeekMath 对数学推理能力的突破 针对大型开放语言模型在处理复杂数理逻辑方面的能力,《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》一文中提到的技术进展具有重要意义。该文章详细介绍了 DeepSeek 如何超越传统方法,在解决高难度计算问题上取得显著成果[^3]。 #### 揭秘 DeepSeek R1 中高级推理机制的力量 《DeepSeek R1: Unraveling the Power of Advanced Reasoning in Large Language Models》揭示了大规模预训练模型背后的工作原理以及其带来的深远影响。特别是有关增强型认知功能部分,展示了这些进步是如何推动开源人工能社区的发展并促进多个行业的创新成长[^4]。 ```python # Python 示例代码用于展示如何获取 DeepSeek API 数据(假设存在相应接口) import requests def get_deepseek_data(api_url): response = requests.get(api_url) if response.status_code == 200: return response.json() else: raise Exception(f"Failed to fetch data from {api_url}") try: api_endpoint = "https://example.com/deepseek/api" result = get_deepseek_data(api_endpoint) print(result) except Exception as e: print(e) ``` 尽管本地部署 DeepSeek 存在一定挑战,尤其是对于硬件资源有限的情况来说更为明显,但这并不妨碍研究人员利用云端服务或其他形式的合作方式参与到这一前沿课题的研究当中去[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值