- 博客(35)
- 收藏
- 关注
原创 PDF-OCR文件识别篇(八):配置、运维与排错
本文摘要介绍了PDF转结构化数据的系统配置与运维要点。配置方面需设置百度OCR和大模型API密钥、超时参数、文件路径等YAML参数。运维注意事项包括Redis缓存依赖、定时任务开启、目录权限管理等。新增表抽取需完成5个步骤:添加字段定义、创建业务对象与数据库表、编写装配器、添加导入方法、接入分派逻辑。常见问题排查涉及OCR鉴权失败、解析超时、输出截断等场景的解决方案。系统采用"切分→提示→抽取→装配"的处理范式,核心组件可替换(如PaddleOCR+DeepSeek组合),强调处理流程的
2026-07-03 10:05:07
34
原创 PDF-OCR文件识别篇(七):数据入库
本文介绍了将PDF文档结构化并接入业务系统的全链路实现方案。系统以ExtractionRecord为核心,通过异步化、定时轮询和按表分派机制实现高效处理。关键流程包括:1)通过百度OCR解析PDF生成结构化数据;2)异步调用AI模型处理并定时回写结果;3)按表类型选择装配器将AI输出转换为业务VO;4)调用导入服务完成数据入库。系统采用文件路径存储大内容,设计了多别名字段兜底机制吸收模型输出波动,支持各环节单独重试,确保业务可靠性的同时保持处理效率。主要涉及实体模型、异步任务管理、数据装配器和多表入库分派等
2026-07-03 09:58:06
34
原创 PDF-OCR文件识别篇(六):AI 客户端封装与结构化抽取
本章构建了PDF结构化抽取的核心框架,分为两层: AiClient客户端层:封装大模型调用全流程,包括鉴权、JSON格式强制、异步回调处理及错误重试,支持文件抽取与多模型切换(如GLM),关键设计包括懒加载SDK、双层重试机制及截断检测。 编排层:串联PDF切分、OCR识别、提示词生成与并行调用,通过分块策略处理大表,失败隔离确保单表错误不影响整体。结果合并模块智能整合分块数据,支持明细表、数组等混合形态。最终输出纯净的结构化JSON,为后续业务落库奠定基础。
2026-06-29 16:32:53
154
原创 PDF-OCR文件识别篇(五):字段定义与提示词工程
本文提出了一套针对PDF表格数据抽取的提示工程方案,采用系统提示词+字段定义的两段式方法将通用大模型转化为专业表格抽取器。系统提示词包含7条抽取铁律,重点解决PDF表格中合并单元格和跨页折行两大结构破坏问题;通过JSON格式的字段注册表定义每张表的结构,支持示例引导和动态注入;采用表格标题匹配机制确保稳定性。该方案通过铁律定下限、示例定上限、对齐输入降难度的方式,有效解决了模型改写、结构破坏、字段漂移等常见问题,显著提升了表格数据抽取质量。
2026-06-29 11:08:02
346
原创 PDF-OCR文件识别篇(四):百度 OCR 模块文档解析
本文介绍了百度OCR模块的实现,主要包含鉴权和文档解析两大功能。鉴权部分采用OAuth2的client_credentials模式获取AccessToken,并通过"提前过期"缓存策略确保Token有效性。文档解析采用异步任务模式,封装了提交、轮询和结果下载流程,对外提供统一的parse接口。模块设计注重健壮性,包含Token失效自动刷新、字段多别名兼容和分级超时机制,将复杂流程隐藏在内,为上层提供简洁的调用方式。
2026-06-25 13:54:50
320
原创 PDF-OCR文件识别篇(三):PDF 切分与表格还原
本文介绍了PDF表格处理的核心思路——先按表切分再并行处理。通过PDFBox提取文本,利用正则表达式识别表格标题(如"表1")和大标题(如"补充说明"),解决跨页标题去重、边界页共享等实际问题。切分后的PdfSection包含标题、页码范围和文本内容,支持后续的单表导出和独立处理。这种异步分割方法提高了大文件处理效率和准确率,适用于包含多个表格的PDF文档处理场景。
2026-06-25 10:41:58
246
原创 PDF-OCR文件识别篇(二):总览与架构
本文介绍了一个由两个模块组成的PDF结构化数据处理流水线系统。baiduocr模块负责PDF文档解析,依赖百度OCR接口将PDF转换为JSON/Markdown;pdf-extraction模块则负责表格切割、提示词生成、大模型结构化数据抽取和入库操作。系统采用双路径处理机制,支持百度API和本地PDF解析两种方式,最终都将数据输入大模型进行结构化处理。关键设计包括:以单个表格为最小处理单元实现并行处理、Token缓存机制、结果文件落盘策略等。完整流程包含PDF上传、表格分割、OCR解析、AI结构化处理及数
2026-06-24 10:59:53
176
原创 PDF-OCR文件识别篇(一):需求与背景
摘要:本文是系列文章的开篇,阐述如何处理老项目中大量非结构化的PDF文档(如合同、单据),将其转化为可分析的结构化数据。作者指出,由于历史系统设计缺陷和PDF格式限制,这些文件难以直接利用,但业务需求又急需解决方案。系列文章将提供技术中立、可替换的实现思路(如OCR识别、提示词解析等),不绑定特定模型或技术栈,强调根据实际场景选择合适方案。后续文章将分享完整流程及踩坑经验,帮助读者实现PDF内容抽取与结构化入库。
2026-06-24 10:32:08
343
转载 MinIO最新社区版砍掉 Web 管理功能,如何实现链接不限时
如果你最近升级了MinIO到较新版本,可能会注意到一个显著变化:MinIO的Web管理控制台已经大幅简化,目前仅保留了“桶(Bucket)”管理功能。你无法再通过图形界面设置复杂的访问策略、用户权..
2025-11-10 14:05:04
505
原创 Nuxt3 一、 创建一个Nuxt3项目
个人博客以vue3实现,由于vue的框架原理对搜索引擎不是很支持。正常是nuxt3迁移,感觉难度较大,且需要学习nuxt3。进入自己的项目目录下打开控制台.
2024-09-06 11:05:58
446
原创 SpringClond微服务架构篇 五 、整合security鉴权篇
Spring Security是一个Java框架,用于保护应用程序的安全性。它提供了一套全面的安全解决方案,包括身份验证、授权、防止攻击等功能。Spring Security基于过滤器链的概念,可以轻松地集成到任何基于Spring的应用程序中。
2024-09-04 14:39:00
1111
原创 SpringClond微服务架构篇 四 、整合swagger聚合篇
http://127.0.0.1:微服务端口/doc.html。打开地址 127.0.0.1:网关端口/doc.html。可以吧swagger依赖放入common模块。
2024-09-03 15:28:09
825
原创 SpringClond微服务架构篇 三 、网关gateway篇
Spring Cloud Gateway 是 Spring Cloud 家族中的新一代微服务网关框架,它为构建 API 网关提供了强大的功能。Spring Cloud Gateway 的核心组件之一就是过滤器,本文将详细介绍和三种过滤器的实现方式,并探讨如何在实践中高效地使用它们。文章汇总:springclond gateway 网关是通用微服务。本文档适用于使用效率的文章,在底层及文化概念层面为深入研究。maven引入。
2024-09-02 09:31:40
577
原创 SpringClond微服务架构篇 二 、代码生成器篇
项目当前未使用数据库持久化字段所以通过mybatis-plus-generator进行的模板代码生成。使用mybatis-plus3.5.7版本,根据自定义代码模板,使用velocity模板引擎实现代码生成
2024-08-30 09:13:54
740
1
原创 SpringClond微服务架构篇 一 、搭建初始化项目
注意:关键在于父模块modules声明子模块,子模块parent声明父模块。确保父子都配置好后,未显示层级关系时,进行勾选分组勾选分组后即可。
2024-08-30 08:56:15
322
原创 elasticsearch-java 操作es 高亮模糊 简单操作等 版本 7.17.6
个人博客已经应用 详见个人页网址。es高版本 采用elasticsearch-java进行交互
2023-09-14 17:24:30
499
1
原创 java 根据自定义转换器转化字典类型
return "向左" . equals(cellData . getStringValue())?1L : 2L;"向左" : "向右");} } }return "向左" . equals(cellData . getStringValue())?1L : 2L;"向左" : "向右");} } }return "向左" . equals(cellData . getStringValue())?1L : 2L;"向左" : "向右");
2023-09-11 10:51:04
530
原创 linux+docker安装rabbitmq
注意:认rabbitmq镜像是不带web端管理插件的,所以指定了镜像tag为3.8-management,表示下载包含web管理插件版本镜像,其它Tag版本可以访问DockerHub查询。
2023-08-21 17:31:23
212
1
原创 docker 构建minio文件存储服务
windows版的为下载了docker虚拟机。其中路径 与端口较为重要。打开浏览器搜索127.0.0.1:9090则会出现控制面板登录页。windows上合理设置路径,重启数据不会丢失。9090端口为webminio所用端口。接下来就可以根据key ip端口使用了。以下两句在指令中创建了这个用户。9000端口为程序所需端口。
2023-06-07 15:43:00
208
原创 已解决 CssSyntaxError: \static\css\app.0c0a8a9f93bb6b1910d6aec191476f3f.css:1942:3: Unknown word
错误信息别删除注意错误解决。
2023-01-16 09:49:15
528
原创 netty 网络通信
由于小时候的一款游戏已经停服,里边全是儿时的回忆,自己想在业余时间做一个游戏。就算失败了也算是扩展自己的能力吧。以下是使用窗体的测试,但主要想使用的是unity做客户端。unity 本人也不会在一点点摸索。希望感兴趣的大哥大姐们教教在下。使用工具通信 netty后台 springboot mybatis mysql简单实现服务端代码地址https://gitee.com/shi-xingze/xlserver.git客户端测试maven
2023-01-10 10:09:43
294
原创 Docker部署jar 项目容器及配置文件
ADD yonlinkbi.properties /conf/yonlinkbi.properties文件挂载。ENTRYPOINT [“java”,“-jar”,“/opt/yonlinkbi.jar”] 启动指令。ADD yonlinkbi.jar /opt/yonlinkbi.jar 文件挂载。yonlinkbi.jar 你所运行的jar包。删除镜像(之前最好先删除此镜像所构建出的容器)对于已退出的容器,可以使用如下命令进行查看。EXPOSE 8099 端口。//不挂载其他文件运行。...
2022-08-18 16:26:04
1170
转载 vue 项目 将代码块实现高亮效果
https://www.cnblogs.com/Jimc/p/13161836.html2创建高亮样式文件 highlight.js在src/main.js中引入:// highlight.js代码高亮插件import Highlight from ‘./directive/highlight’; // 这里是你项目highlight.js所在路径Vue.use(Highlight);效果...
2022-07-08 10:12:47
1072
2
原创 文件上传使用commons javaweb 练习使用
第一步导入依赖<dependency> <groupId>commons-fileupload</groupId> <artifactId>commons-fileupload</artifactId> <version>1.4</version></dependency><dependency> <groupId>commons-io</gro
2021-09-10 14:20:33
176
原创 java poi读取某位置excel数据
直接上代码:```javapackage com.example.excel;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import javafx.scene.control.Cell;import org.apache.poi.ss.usermodel.CellType;import org.apache.poi.xssf.user
2021-09-08 10:27:18
730
原创 求助,java jsp文件获取input输入框内容 ,并用入a标签 herf属性实现跳页带参数
大家好,泽弟又来了,我们知道form表单可以提交数据submit按钮操作 图如下????her最近在做作业时,有一块需要提交,但我当时写的时候没用上form表单提交,也就用了标签来使用,我想的是用a标签的 href 属性来跳转,在web jsp文件中,获取input 标题输入框内容 与 textarea 文本框内容新手没有思路求大佬们帮咱一下,感谢感谢,帅哥美女们。泽弟先行谢过了。【鞠躬】...
2021-02-02 11:03:25
1649
原创 求助,html5的<testarea>标签实现光标默认一行第一位起始位置
大佬们好,这里真不错,解决了我好多问题。新手小白在此谢过了。在作业中遇到一个问题特来求教一下下????这个光标初始第一行最左边,无法改动,这是预计的效果,大佬们帮一下,谢谢啦。...
2021-02-02 10:47:00
423
原创 java初级第一章重要概念
JAVA T1 初识JAVA目标:一、程序与流程图二、JAVA环境配置【重点】三、程序结构【重点】四、eclipse使用【重点】一、程序和流程图1.程序:完成一件事情的步骤。2.算法: 完成一件事情的不同方式。3.流程图: 算法的表现形式。 A.程序的开始与结束: 圆角矩形 B.程序的判断或分支: 菱形 C.程序对数据的处理:平行四边形 D.程序对数据的显示: 长方形 E.程序的走向: 箭头二、配置JDK 1、配置JDKA.下载好JdkB.配置环境变量 1).打开计算机属性---
2020-12-22 10:29:35
239
4
空空如也
nuxt3 vuetify 样式问题
2024-10-18
关于#centos#删除文件夹问题
2023-02-02
单点登录,cookies跨域,重定向set-cookies 无效
2022-08-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅