PDF格式相关
PDF基础知识介绍
齐楚
这个作者很懒,什么都没留下…
展开
-
OOXML-docx/xlsx/pptx利器
1、ECMA-376Standard ECMA-376 Office Open XML File Formats2、C#研究OpenXML之路C#研究OpenXML之路(1-新建工作簿文件)C#研究OpenXML之路(2-DocumentFormat.OpenXml命名空间) C#研究OpenXML之路(3-OpenXMLSDKToolV25.msi) 3、Open原创 2017-03-15 10:16:07 · 4636 阅读 · 0 评论 -
Python读写docx文件
Python读写word文档有现成的库可以处理。我这里采用 python-docx。可以用pip install python-docx安装一下。这里说一句,ppt和excel也有类似的库哦,而且是直接读取文件里面的xml数据。所以doc格式得另找其他库处理,doc格式不是基于xml的。帮助文档:http://python-docx.readthedocs.org/en/latest/...转载 2017-03-21 22:00:55 · 19459 阅读 · 1 评论 -
Points, inches and Emus: Measuring units in Office Open XML
Points, inches and Emus: Measuring units in Office Open XMLAfter I got confused with the Office Open XML (OOXML) measuring units for a couple of hours, I thought I’d share what I found on it.转载 2017-03-16 14:17:12 · 683 阅读 · 0 评论 -
利用python-docx更新word中的表格内容
利用python-docx更新word中的表格内容December 06, 2016收到实验组小妹妹一个需求, 希望把一个巨大word文档中所有表格里的所有一位小数随机添加一位数变成两位小数, 从学术角度我开始是拒绝的, 但是, 妹子需求哪有不满足的道理, so...记录下我解决这个问题的流程:听取妹子需求, 然后大概评估这个活应该可以用Python来做需求转载 2017-03-21 22:03:02 · 18279 阅读 · 1 评论 -
PDF压缩
1. 为什么需要压缩?占用更多的磁盘空间传输需要更多网络带宽,更多的上传下载时间2. 可以压缩什么?去除没有用到的对象(无损)图片处理去除看不见的对象(可能有损)压缩图片大小(有损)文字处理合并内嵌字体(无损)把内嵌字体替换为非内嵌的同名字体(可能有损)把内嵌字体替换为非内嵌的字体(损失字体效果,可能损失字符显示)把重叠的多张图片合并处理(可能有损)...原创 2018-04-11 11:40:19 · 1145 阅读 · 0 评论 -
PDF领域难点
1. OCR技术。2. 把扫描文档中的文字识别为文字,而且创建一种字体尽量保持和原扫描中的显示特性一致。3. 把PDF无序的版面识别为符合读写顺序以及组织为段落方式的结构。4. 能够较小的质量损失,较大的压缩PDF文件大小。5. 识别PDF中文本图形图像组合而成的表格。6. 较快渲染PDF中含有大量元素(10万+)的页面,且支持编辑。...原创 2018-04-11 09:25:15 · 386 阅读 · 0 评论 -
PDF和Word格式的区别
1.阅读PDF适合阅读,不同平台不同阅读软件打开不会出错或变形。Word只能在相同版本下阅读,比如Word2003不能打开Word2010,并且如果没有事项兼容的字体,则文字或排版有错误。PDF格式每个页面是独立的,所以随机打开某个页面速度都很快。而Word依赖当前页面之前的内容,所以打开文档后面的部分阅读速度会慢很多。2.可编辑性PDF再次编辑比较麻烦。PDF的元素基于位置。而Wo...原创 2019-03-30 17:08:59 · 8405 阅读 · 0 评论 -
PDFium - CFX_RenderDevice
// Copyright 2016 PDFium Authors. All rights reserved.// Use of this source code is governed by a BSD-style license that can be// found in the LICENSE file.// Original code copyright 2014 Foxit Software Inc. http://www.foxitsoftware.com#ifndef CORE_.原创 2022-02-10 17:15:48 · 7099 阅读 · 0 评论 -
PDF表格识别
参考文章:http://www.dlib.org/dlib/november14/klampfl/11klampfl.htmlhttp://www.tamirhassan.com/competition.htmlhttp://www.tamirhassan.com/pdfxtk.htmlhttp://ieg.ifs.tuwien.ac.at/projects/pdf2table/...原创 2018-04-20 08:40:46 · 3121 阅读 · 0 评论 -
TrueType字体结构
TrueType字体通常包含在单个TrueType字体文件中,其文件后缀为.TTF。OpenType字体是以类似于TrueType字体的格式编码的POSTSCRIPT字体。OPENTYPE字体使用.OTF文件后缀。OPENTYPE还允许把多个OPENTYPE字体组合在一个文件中以利于数据共享。这些字体被称为TrueType字体集(TrueType collection),其文件后缀为.TTC。...转载 2018-07-25 20:02:08 · 9644 阅读 · 0 评论 -
字体相关开源库
https://github.com/PhenX/php-font-libThis library can be used to:Read TrueType, OpenType (with TrueType glyphs), WOFF font files Extract basic info (name, style, etc) Extract advanced info (hori...原创 2018-08-01 10:18:41 · 918 阅读 · 0 评论 -
PDFium - CPDF_PageObjectHolder
// Copyright 2016 PDFium Authors. All rights reserved.// Use of this source code is governed by a BSD-style license that can be// found in the LICENSE file.// Original code copyright 2014 Foxit Software Inc. http://www.foxitsoftware.com#ifndef CORE_.原创 2022-02-10 11:08:42 · 615 阅读 · 0 评论 -
PDFium - 渲染
// Copyright 2020 PDFium Authors. All rights reserved.// Use of this source code is governed by a BSD-style license that can be// found in the LICENSE file.// Original code copyright 2014 Foxit Software Inc. http://www.foxitsoftware.com#include "fpd.原创 2022-02-10 10:38:18 · 685 阅读 · 0 评论 -
PDFium - RetainPtr,Retainable
namespace fxcrt {// Used with std::unique_ptr to Release() objects that can't be deleted.template <class T>struct ReleaseDeleter { inline void operator()(T* ptr) const { ptr->Release(); }};// Analogous to base's scoped_refptr.template &.原创 2022-02-09 20:40:55 · 795 阅读 · 0 评论 -
PDF表格编辑
Word中的表格转换到PDF格式后,表格结构将不再存在,其中单元格内部的段落文字变成了PDF的文本对象,表格线则变成了PDF中的线条。在PDF中编辑表格内容是非常不方便的。如果希望文字和单元格能够联动,则需要实现简单的表格编辑需要算法识别,把表格识别出来,并且把文本放置到单元格。这样就可以做简单的行操作,如新增,删除行内容。修改行内部单元格文本,能够自动扩张整行的高度。更进一步,编辑表格如果扩充了表格的内容,则可以移动表格下方的内容,则可以做到联动效果。...原创 2022-02-09 16:48:28 · 1216 阅读 · 0 评论 -
PDF规范发展历史
PDF 规范从1993 年到现在,已经有过 7 个版本,六次版本升级,从最初的 PDF1.0,版本到现在的 PDF1.7, 每次的版本升级都会加入一些新的特性,PDF参考说明书也是从最初的100多页到现在的1000多页,但是PDF文件格式的主要特性还是没有改变,主要是随著Adobe Acrobat的新版本而更新的。以下为PDF文件的版本号,公布时间及Acrobat 版本号对应列表。1993 – PDF 1.0 / Acrobat 1.01994 – PDF 1.1 / Acrobat 2.0 .转载 2020-10-08 15:23:19 · 2417 阅读 · 0 评论 -
PDF文件结构
PDF(Portable Document Format,便携式文档结构)是一种很有用的文件格式,其最大的特点是平台无关而且功能强大(支持文字/图象/表单/链接/音乐/视频等).做PDF的解析,首先要熟悉PDF文件的物理结构和逻辑结构。PDF文件物理结构可分为以下几块:1.文件头文件头是PDF文件的第一行,格式如下: %PDF-1.4这是个固定格式,表示这个PDF文件遵循的PDF规范版本,目前PDF的生成工具,除了官方的acrobat,其他生成的以1...转载 2020-07-16 10:11:44 · 737 阅读 · 0 评论