文件格式
文章平均质量分 62
lacoucou
这个作者很懒,什么都没留下…
展开
-
使用pypdf提取pdf中的url
代码:import PyPDF2import osdef check_uri(filepath,filename): print "[begin]-->%s"%filename doc = PyPDF2.PdfFileReader(open(filepath, "rb")) for p in range(0,doc.getNumPages()): page=doc.getPage(p) for i in range(0,len(pa原创 2021-04-29 18:07:16 · 675 阅读 · 0 评论 -
PDF文件中的图片提取
pdf中保存的文件有两种,1种直接是把原图片的数据复制进文档中,另外一种是经过压缩的图片,这种图片的提取并非只是简单的解压缩就能解决的。1.直接保存图片格式的例如上图中的例子,直接可以看到JFIF头,这种直接把 stream 和endstream中间的内容保存下来,去掉头尾的0xa 就可以看到图片了。2.压缩图片像这样的图片如果仅仅是解压缩:解压缩之后会是像下边这样的数据,这个数据保存之后是没办法看到图片的。原因:http://itext.2136553.n4..原创 2021-04-23 19:38:54 · 1409 阅读 · 1 评论 -
PDF 文件格式 基本结构
参考:https://resources.infosecinstitute.com/topic/pdf-file-format-basic-structure/PDF是一种可移植的文档格式,可用于显示包含文本,图像,多媒体元素,网页链接等内容。PDF文件格式规范链接:https://opensource.adobe.com/dc-acrobat-sdk-docs/。官方链接中仅仅文件格式的文档就有800多页,因此通读该文档并不是意见容易的事。PDF不仅具有文本功能,还具有更多的功能:它可以包含.原创 2021-03-10 17:55:53 · 6080 阅读 · 6 评论