因为工作需要
做了一个将pdf文件里面的部分文字内容数据入库的一个功能
本篇就简单说一下本人的菜鸡思路
其实也很简单的一个思路
1 pdf文件转文本
2 php进行提取文本数据
3 正则匹配所需数据
4 入库
其中的第一步 所用到的工具是 xpdf
xpdf工具链接
不得不说这种才是吾辈楷模(仰慕大佬崇拜的目光)
其实这个功能已经完事了,但是在业务处理上,出现了pdf文件有编辑权限的一个问题导致第一步转换失败
所以如下方法也是本人做了一系列总结,希望之后要是有做类似功能的,来查百度的小伙伴不会走太多弯路
功能软件名称:GhostScript
处理 pdf 功能可能很多,但是本人就只是用了其中破解加密的pdf文件的功能 很多操作其实都还不了解,介绍此软件的链接如下
GhostScript 应用一例
文章中所属对于GhostScript 的操作---------------------如下
作为一个英文开源软件,发现国内用的人很少。尤其是在Windows环境下,Acrobat/Adobe/Foxit系列的软件基本上都会满足大家的需求。
有时候会遇到这样的pdf文件,未设置打开口令,但是设置了编辑口令,这个时候该文件是不可以被编辑的,即使将其强行打印到文件后,依然不可编辑。
使用GhostScript可以破解该问题。
安装后,先进入安装目录下的bin文件夹,然后将里面