关于pdf的吐槽
起因
最近在复习嵌入式,想要写一个简单的库,通过stm32向st7735驱动的tft发送图片,于是就开始看那个文档(比如这个连接,点击下载),然后里面有一行一行的那种命令表格.我就想要软件解析,脚本自动生成代码.
经过
在浏览器内复制文本之后,粘贴到记事本里面,然后开始操作,但是粘贴出来的格式就非常的乱,就需要有一次的人工处理,也就是说原先表格的数据在粘贴的过程中已经丢失了,然后我又开始找pdf转txt或者html之类的开源库或者是其它应用程序.然后找了一段时间,试了下pdfminer
,效果真的不怎么样,表格好像没有导出来,还有一些在线转换的网站,也是一样,之后看到了pdfbox
但是没有测试.最后,还是使用了Adobe Acrobat XI Pro
才成功转换为html格式,即使这样有一些表格依然是结构混乱.
结果
怎么说呢.我之前一直还以为pdf挺好的,因为它真的比word那种东西舒服一点,可以在浏览器打开,真正便携等等,尤其是看一些带目录的电子书的时候,真的感觉很舒服.
但现在,它让我有一点不爽,数据最终还是被封闭住了!
不过也可能是因为我比较低级,才找不到好的解决方案的吧!
一言难尽,Adobe Acrobat XI Pro转换出来的html只带有格式信息,不带有原来文档的结构化信息,想解析html生成数据真难,感觉像破译密码那样所以这其实是一种类似于java的混淆之类的技术吗?