Apache PDFbox开发指南之PDF文本内容挖掘

最新推荐文章于 2025-09-11 08:00:00 发布

原创

最新推荐文章于 2025-09-11 08:00:00 发布 · 1w 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#apache #数据库 #pdf #数据

本文介绍如何使用Apache PDFbox进行PDF文本内容的挖掘，旨在将PDF文档内容结构化，便于数据库存储。通过代码示例展示处理过程，强调结构化数据的价值。

转载请注明来源：http://blog.csdn.net/loongshawn/article/details/51550383

相关文章：

1、场景说明

上一篇文章《Apache PDFbox开发指南之PDF文档读取》讲述了如何读取PDF文档的内容，但这并不是止步，其实想做的是对特定的文本内容进行挖掘，以便获取结构性有价值数据。

2、需要什么

下面这是直接读出来的数据，虽说可以看出大概，但其中参考区间字段内容需要处理，当前不便数据库存储。

检查项目 缩写 测量结果 提示 参考区间 单位
白细胞计数 WBC 6.1 3.5 -- 9.5 10^9/L
淋巴细胞百分比 LYM% 39.3 20 -- 40 %
中间细胞百分比 MXD% 10.1 0 -- 15 %
中性粒细胞百分比 NEUT% 50.6 50 -- 70 %
淋巴细胞绝对值 LYM# 2.7 0.8 -- 4 10^9/L
中间细胞绝对值 MXD# 0.6 0.1 -- 1.4 10^9/L
中性粒细胞绝对值 NEUT# 2.8 2 -- 7 10^9/L
红细胞计数 RBC 5.6 4.3 -- 5.8 10^12/L
血红蛋白 HGB 171 130 -- 175 g/L
红细胞压积 HCT 0.49 0.40 -- 0.50 L/L
平均红细胞体积 MCV 83.5 82 -- 100 fL
平均红细胞血红蛋白含量 MCH 30.8 27 -- 34 pg
平均红细胞血红蛋白浓度 MCHC 354 316 -- 355 g/L
血小板计数 PLT 219 125 -- 350 10^9/L

处理后的数据，便于数据库存储：

[白细胞计数, WBC, 6.1, 3.5--9.5, 10^9/L]
[淋巴细胞百分比, LYM%, 39.3, 20--40, %]
[中间细胞百分比, MXD%, 10.1, 0--15, %]
[中性粒细胞百分比, NEUT%, 50.6, 50--70, %]
[淋巴细胞绝对值, LYM#, 2.7, 0.8--4, 10^9/L]
[中间细胞绝对值, MXD#,

最低0.47元/天解锁文章