c 从服务器上获取pdf文件大小,c-从二进制文件(如PDF)中读取文本

只能直接“读取”和“理解”仅几种文件格式,例如纯原始.TXT文本文件.大多数文件格式(包括几乎所有二进制格式)都是..格式.这意味着文件中保留了某些结构.与完全没有结构的.TXT文本文件完全相反,或者说,它是一大块纯数据.

打开写字板或Word或任何其他不太智能的文本编辑器,然后在其中编写一些文本,然后将其另存为RTF,DOC,ODT或任何其他非TXT文件.然后也将其另存为TXT文件.

下载十六进制查看器/十六进制编辑器.随便一个.免费使用其中之一,您不需要太多功能,只需在一个列中显示原始二进制值,在另一列中显示ASCII文本的功能.几乎所有免费的十六进制查看器/编辑器都可以这样做.

打开并比较这两个文件.您会立即看到差异.

返回PDF:

PDF甚至可以包含与文本交错的图形.如果文本像TXT中那样“只是坐在文件中”,您希望如何保留它?图像位置/描述/数据将如何嵌入?如果我记得很好,PDF甚至可以包含类似于JavaScript的脚本.可执行文件.在PDF型文档中,您可以具有执行某些操作的按钮.这远比仅在文件中输入文本复杂得多.

二进制文件通常不包含任何普通可读的文本.他们将文本结构化为块,包装在有关颜色,文本布局,页面调度等的元数据中,甚至在有关文档版本控制,创作,分类等方面的特殊结构中.这一切都必须存储在某个地方.

通常,二进制文件具有部分.第一部分通常称为HEADER.在内部,将包含以下信息:格式类型,格式版本,文件/块/数据长度,图像分辨率等.所有这些很可能都将以二进制形式保存:没有“ 800×600”文本,只有“ | 00 | 00 | 03 | 20 | 00 | 00 | 02 | 58 |”假设BE为32位.阅读,解码和理解了描述之后,您将知道实际数据从哪里开始,如何布置数据块,以及如何对它们进行解码并了解它们包含的内容.

编辑:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值