自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 PDF-OCR文件识别篇(八):配置、运维与排错

本文摘要介绍了PDF转结构化数据的系统配置与运维要点。配置方面需设置百度OCR和大模型API密钥、超时参数、文件路径等YAML参数。运维注意事项包括Redis缓存依赖、定时任务开启、目录权限管理等。新增表抽取需完成5个步骤:添加字段定义、创建业务对象与数据库表、编写装配器、添加导入方法、接入分派逻辑。常见问题排查涉及OCR鉴权失败、解析超时、输出截断等场景的解决方案。系统采用"切分→提示→抽取→装配"的处理范式,核心组件可替换(如PaddleOCR+DeepSeek组合),强调处理流程的

2026-07-03 10:05:07 34

原创 PDF-OCR文件识别篇(七):数据入库

本文介绍了将PDF文档结构化并接入业务系统的全链路实现方案。系统以ExtractionRecord为核心,通过异步化、定时轮询和按表分派机制实现高效处理。关键流程包括:1)通过百度OCR解析PDF生成结构化数据;2)异步调用AI模型处理并定时回写结果;3)按表类型选择装配器将AI输出转换为业务VO;4)调用导入服务完成数据入库。系统采用文件路径存储大内容,设计了多别名字段兜底机制吸收模型输出波动,支持各环节单独重试,确保业务可靠性的同时保持处理效率。主要涉及实体模型、异步任务管理、数据装配器和多表入库分派等

2026-07-03 09:58:06 34

原创 PDF-OCR文件识别篇(六):AI 客户端封装与结构化抽取

本章构建了PDF结构化抽取的核心框架,分为两层: AiClient客户端层:封装大模型调用全流程,包括鉴权、JSON格式强制、异步回调处理及错误重试,支持文件抽取与多模型切换(如GLM),关键设计包括懒加载SDK、双层重试机制及截断检测。 编排层:串联PDF切分、OCR识别、提示词生成与并行调用,通过分块策略处理大表,失败隔离确保单表错误不影响整体。结果合并模块智能整合分块数据,支持明细表、数组等混合形态。最终输出纯净的结构化JSON,为后续业务落库奠定基础。

2026-06-29 16:32:53 154

原创 PDF-OCR文件识别篇(五):字段定义与提示词工程

本文提出了一套针对PDF表格数据抽取的提示工程方案,采用系统提示词+字段定义的两段式方法将通用大模型转化为专业表格抽取器。系统提示词包含7条抽取铁律,重点解决PDF表格中合并单元格和跨页折行两大结构破坏问题;通过JSON格式的字段注册表定义每张表的结构,支持示例引导和动态注入;采用表格标题匹配机制确保稳定性。该方案通过铁律定下限、示例定上限、对齐输入降难度的方式,有效解决了模型改写、结构破坏、字段漂移等常见问题,显著提升了表格数据抽取质量。

2026-06-29 11:08:02 346

原创 PDF-OCR文件识别篇(四):百度 OCR 模块文档解析

本文介绍了百度OCR模块的实现,主要包含鉴权和文档解析两大功能。鉴权部分采用OAuth2的client_credentials模式获取AccessToken,并通过"提前过期"缓存策略确保Token有效性。文档解析采用异步任务模式,封装了提交、轮询和结果下载流程,对外提供统一的parse接口。模块设计注重健壮性,包含Token失效自动刷新、字段多别名兼容和分级超时机制,将复杂流程隐藏在内,为上层提供简洁的调用方式。

2026-06-25 13:54:50 320

原创 PDF-OCR文件识别篇(三):PDF 切分与表格还原

本文介绍了PDF表格处理的核心思路——先按表切分再并行处理。通过PDFBox提取文本,利用正则表达式识别表格标题(如"表1")和大标题(如"补充说明"),解决跨页标题去重、边界页共享等实际问题。切分后的PdfSection包含标题、页码范围和文本内容,支持后续的单表导出和独立处理。这种异步分割方法提高了大文件处理效率和准确率,适用于包含多个表格的PDF文档处理场景。

2026-06-25 10:41:58 246

原创 PDF-OCR文件识别篇(二):总览与架构

本文介绍了一个由两个模块组成的PDF结构化数据处理流水线系统。baiduocr模块负责PDF文档解析,依赖百度OCR接口将PDF转换为JSON/Markdown;pdf-extraction模块则负责表格切割、提示词生成、大模型结构化数据抽取和入库操作。系统采用双路径处理机制,支持百度API和本地PDF解析两种方式,最终都将数据输入大模型进行结构化处理。关键设计包括:以单个表格为最小处理单元实现并行处理、Token缓存机制、结果文件落盘策略等。完整流程包含PDF上传、表格分割、OCR解析、AI结构化处理及数

2026-06-24 10:59:53 176

原创 PDF-OCR文件识别篇(一):需求与背景

摘要:本文是系列文章的开篇,阐述如何处理老项目中大量非结构化的PDF文档(如合同、单据),将其转化为可分析的结构化数据。作者指出,由于历史系统设计缺陷和PDF格式限制,这些文件难以直接利用,但业务需求又急需解决方案。系列文章将提供技术中立、可替换的实现思路(如OCR识别、提示词解析等),不绑定特定模型或技术栈,强调根据实际场景选择合适方案。后续文章将分享完整流程及踩坑经验,帮助读者实现PDF内容抽取与结构化入库。

2026-06-24 10:32:08 343

转载 MinIO最新社区版砍掉 Web 管理功能,如何实现链接不限时

如果你最近升级了MinIO到较新版本,可能会注意到一个显著变化:MinIO的Web管理控制台已经大幅简化,目前仅保留了“桶(Bucket)”管理功能。你无法再通过图形界面设置复杂的访问策略、用户权..

2025-11-10 14:05:04 505

原创 Linux(ubuntu18)安装EasyConnect

下载并安装EasyConnect客户端下载下来后通过工具上传到服务器。安装客户端。

2025-05-08 10:17:33 1345

原创 Nuxt3 一、 创建一个Nuxt3项目

个人博客以vue3实现,由于vue的框架原理对搜索引擎不是很支持。正常是nuxt3迁移,感觉难度较大,且需要学习nuxt3。进入自己的项目目录下打开控制台.

2024-09-06 11:05:58 446

原创 SpringClond微服务架构篇 五 、整合security鉴权篇

Spring Security是一个Java框架,用于保护应用程序的安全性。它提供了一套全面的安全解决方案,包括身份验证、授权、防止攻击等功能。Spring Security基于过滤器链的概念,可以轻松地集成到任何基于Spring的应用程序中。

2024-09-04 14:39:00 1111

原创 SpringClond微服务架构篇 四 、整合swagger聚合篇

http://127.0.0.1:微服务端口/doc.html。打开地址 127.0.0.1:网关端口/doc.html。可以吧swagger依赖放入common模块。

2024-09-03 15:28:09 825

原创 SpringClond微服务架构篇 三 、网关gateway篇

Spring Cloud Gateway 是 Spring Cloud 家族中的新一代微服务网关框架,它为构建 API 网关提供了强大的功能。Spring Cloud Gateway 的核心组件之一就是过滤器,本文将详细介绍和三种过滤器的实现方式,并探讨如何在实践中高效地使用它们。文章汇总:springclond gateway 网关是通用微服务。本文档适用于使用效率的文章,在底层及文化概念层面为深入研究。maven引入。

2024-09-02 09:31:40 577

原创 SpringClond微服务架构篇 二 、代码生成器篇

项目当前未使用数据库持久化字段所以通过mybatis-plus-generator进行的模板代码生成。使用mybatis-plus3.5.7版本,根据自定义代码模板,使用velocity模板引擎实现代码生成

2024-08-30 09:13:54 740 1

原创 SpringClond微服务架构篇 一 、搭建初始化项目

注意:关键在于父模块modules声明子模块,子模块parent声明父模块。确保父子都配置好后,未显示层级关系时,进行勾选分组勾选分组后即可。

2024-08-30 08:56:15 322

原创 java录屏 实现光标显示 停止闪烁

项目为启动后自动后台录制。

2024-01-04 16:45:16 519 1

原创 工作中的几大重点(你占几个)

工作中的几大重点(你占几个)

2023-10-24 16:57:19 197

原创 【无标题】

BUG程序启动后偶尔程序崩溃求看看什么原因里。

2023-10-19 14:58:08 3792 1

原创 elasticsearch-java 操作es 高亮模糊 简单操作等 版本 7.17.6

个人博客已经应用 详见个人页网址。es高版本 采用elasticsearch-java进行交互

2023-09-14 17:24:30 499 1

原创 队列监听器MessageListener使用(使用的redis)

【代码】队列监听器MessageListener使用(使用的redis)

2023-09-11 17:36:25 1215

原创 java 根据自定义转换器转化字典类型

return "向左" . equals(cellData . getStringValue())?1L : 2L;"向左" : "向右");} } }return "向左" . equals(cellData . getStringValue())?1L : 2L;"向左" : "向右");} } }return "向左" . equals(cellData . getStringValue())?1L : 2L;"向左" : "向右");

2023-09-11 10:51:04 530

原创 linux+docker安装rabbitmq

注意:认rabbitmq镜像是不带web端管理插件的,所以指定了镜像tag为3.8-management,表示下载包含web管理插件版本镜像,其它Tag版本可以访问DockerHub查询。

2023-08-21 17:31:23 212 1

原创 docker 构建minio文件存储服务

windows版的为下载了docker虚拟机。其中路径 与端口较为重要。打开浏览器搜索127.0.0.1:9090则会出现控制面板登录页。windows上合理设置路径,重启数据不会丢失。9090端口为webminio所用端口。接下来就可以根据key ip端口使用了。以下两句在指令中创建了这个用户。9000端口为程序所需端口。

2023-06-07 15:43:00 208

原创 已解决 CssSyntaxError: \static\css\app.0c0a8a9f93bb6b1910d6aec191476f3f.css:1942:3: Unknown word

错误信息别删除注意错误解决。

2023-01-16 09:49:15 528

原创 netty 网络通信

由于小时候的一款游戏已经停服,里边全是儿时的回忆,自己想在业余时间做一个游戏。就算失败了也算是扩展自己的能力吧。以下是使用窗体的测试,但主要想使用的是unity做客户端。unity 本人也不会在一点点摸索。希望感兴趣的大哥大姐们教教在下。使用工具通信 netty后台 springboot mybatis mysql简单实现服务端代码地址https://gitee.com/shi-xingze/xlserver.git客户端测试maven

2023-01-10 10:09:43 294

原创 AOP 做接口防重复提交

3 使用方法直接在方法前进行注解拦截。

2023-01-05 10:25:16 280

原创 【无标题】Doris报错 (too many filtered rows)

doris

2022-10-28 18:09:08 3467

原创 Docker部署jar 项目容器及配置文件

ADD yonlinkbi.properties /conf/yonlinkbi.properties文件挂载。ENTRYPOINT [“java”,“-jar”,“/opt/yonlinkbi.jar”] 启动指令。ADD yonlinkbi.jar /opt/yonlinkbi.jar 文件挂载。yonlinkbi.jar 你所运行的jar包。删除镜像(之前最好先删除此镜像所构建出的容器)对于已退出的容器,可以使用如下命令进行查看。EXPOSE 8099 端口。//不挂载其他文件运行。...

2022-08-18 16:26:04 1170

转载 vue 项目 将代码块实现高亮效果

https://www.cnblogs.com/Jimc/p/13161836.html2创建高亮样式文件 highlight.js在src/main.js中引入:// highlight.js代码高亮插件import Highlight from ‘./directive/highlight’; // 这里是你项目highlight.js所在路径Vue.use(Highlight);效果...

2022-07-08 10:12:47 1072 2

原创 文件上传使用commons javaweb 练习使用

第一步导入依赖<dependency> <groupId>commons-fileupload</groupId> <artifactId>commons-fileupload</artifactId> <version>1.4</version></dependency><dependency> <groupId>commons-io</gro

2021-09-10 14:20:33 176

原创 java poi读取某位置excel数据

​直接上代码:​```javapackage com.example.excel;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import javafx.scene.control.Cell;import org.apache.poi.ss.usermodel.CellType;import org.apache.poi.xssf.user

2021-09-08 10:27:18 730

原创 求助,java jsp文件获取input输入框内容 ,并用入a标签 herf属性实现跳页带参数

大家好,泽弟又来了,我们知道form表单可以提交数据submit按钮操作 图如下????her最近在做作业时,有一块需要提交,但我当时写的时候没用上form表单提交,也就用了标签来使用,我想的是用a标签的 href 属性来跳转,在web jsp文件中,获取input 标题输入框内容 与 textarea 文本框内容新手没有思路求大佬们帮咱一下,感谢感谢,帅哥美女们。泽弟先行谢过了。【鞠躬】...

2021-02-02 11:03:25 1649

原创 求助,html5的<testarea>标签实现光标默认一行第一位起始位置

大佬们好,这里真不错,解决了我好多问题。新手小白在此谢过了。在作业中遇到一个问题特来求教一下下????这个光标初始第一行最左边,无法改动,这是预计的效果,大佬们帮一下,谢谢啦。...

2021-02-02 10:47:00 423

原创 java初级第一章重要概念

JAVA T1 初识JAVA目标:一、程序与流程图二、JAVA环境配置【重点】三、程序结构【重点】四、eclipse使用【重点】一、程序和流程图1.程序:完成一件事情的步骤。2.算法: 完成一件事情的不同方式。3.流程图: 算法的表现形式。 A.程序的开始与结束: 圆角矩形 B.程序的判断或分支: 菱形 C.程序对数据的处理:平行四边形 D.程序对数据的显示: 长方形 E.程序的走向: 箭头二、配置JDK 1、配置JDKA.下载好JdkB.配置环境变量 1).打开计算机属性---

2020-12-22 10:29:35 239 4

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除