关于pdf的吐槽

关于pdf的吐槽

起因

最近在复习嵌入式,想要写一个简单的库,通过stm32向st7735驱动的tft发送图片,于是就开始看那个文档(比如这个连接,点击下载),然后里面有一行一行的那种命令表格.我就想要软件解析,脚本自动生成代码.

经过

在浏览器内复制文本之后,粘贴到记事本里面,然后开始操作,但是粘贴出来的格式就非常的乱,就需要有一次的人工处理,也就是说原先表格的数据在粘贴的过程中已经丢失了,然后我又开始找pdf转txt或者html之类的开源库或者是其它应用程序.然后找了一段时间,试了下pdfminer,效果真的不怎么样,表格好像没有导出来,还有一些在线转换的网站,也是一样,之后看到了pdfbox但是没有测试.最后,还是使用了Adobe Acrobat XI Pro才成功转换为html格式,即使这样有一些表格依然是结构混乱.

结果

怎么说呢.我之前一直还以为pdf挺好的,因为它真的比word那种东西舒服一点,可以在浏览器打开,真正便携等等,尤其是看一些带目录的电子书的时候,真的感觉很舒服.

但现在,它让我有一点不爽,数据最终还是被封闭住了!

不过也可能是因为我比较低级,才找不到好的解决方案的吧!
一言难尽,Adobe Acrobat XI Pro转换出来的html只带有格式信息,不带有原来文档的结构化信息,想解析html生成数据真难,感觉像破译密码那样所以这其实是一种类似于java的混淆之类的技术吗?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值