PDF转EPUB格式电子书经验总结

本文详细介绍了将PDF文件转换为EPUB格式电子书的过程和经验总结,包括转换工具的选择、排版优化和可能出现的问题及解决方案。
摘要由CSDN通过智能技术生成
根据本人将PDF转换为EPUB电子书的经验,总结整理了这篇文章,因本人水平有限,难免有错误和不足之处,望大家及时批评指正。
 
写这篇文章时,假定读者已经会使用文中所列出软件的基本操作,比如怎样用Notepad++打开HTML文件,如何使用PDF Password
Remover(这个软件很简单,稍有电脑操作基础的人打开后就知道怎么做)。另外读者需要对ePubBuilder的操作比较了解。
 
本文主要讨论图文并茂、非扫描版的PDF文档。对于扫描版PDF文件,如果是漫画一类的,可以直接用Adobe
Acrobat转化为图片制作EPUB,如果是文字形式的扫描电子书,可以使用OCR软件识别以转化成文字(ABBYY
FineReader识别效果相对较好),但OCR识别中文准确率不够高,部分无法识别的汉字需要人工输入。对于纯文本形式的PDF,直接保存为TXT,然后转换就可以。如果文字无法复制,可以用PDF
Password Remover解密,具体请参考本文的PDF解密部分。
 
以下摘自百度百科:
PDF是Portable Document Format(便携文件格式)的缩写,是一种电子文件格式,与操作系统平台无关,由Adobe
公司开发而成。PDF
文件是以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符、颜色以及图象。
PDF主要由三项技术组成:
  · 衍生自PostScript,可以说是PostScript的缩小版;
  · 字型嵌入系统,可使字型随文件一起传输;
  · 资料压缩及传输系统。
PDF文件结构主要可以分为四个部分:
1.首部
2.文件体
3. 交叉引用表
4.尾部
 
 
一方面,PDF格式作为印前出版的工业标准,由于其排版相对复杂,文件内容也有比较复杂,比如PDF可以内嵌特殊字体,可以很自由的保存每个图片、文本对象的绝对位置,而另一方面,EPUB采用类似网页格式的XML标准,即使增加了CSS样式表的支持,排版效果还是远难及PDF,因此想把排版优良的PDF电子书完美地转换成EPUB格式,相对比较复杂。一些正版收费阅读器会推出一些排版质量很高的EPUB,我试用过,排版确实不错,但是那只有在非常精心的制作下才能得出,对于我们转换PDF的人来说,是很不现实的,而且那些电子书一般收费是比较高的,应该还有授权限制,不可能共享出来让大家都能用(这些文件只有在特定应用中登录特定账号后才能打开,复制给别人就打不开了)。
 
 
可能要用到的所有软件:
PDF Password Remover 3.0
Adobe Acrobat
Chrome浏览器(其他浏览器应该也行)
Notepad++
Microsoft Word
WPS
数码照片压缩大师
ePubBuilder
 
大致思路是首先解除密码限制,然后导出为HTML格式,去除无关信息、修正乱码等,然后用ePubBuilder导入,完善书籍信息,分章节,自己用阅读器打开检查有无严重错误,然后发布。为什么要转为HTML,因为这种格式完全开源,好处理,出错率低,也和EPUB内部保存格式一致。
 
具体步骤如下:
首先指明一点,以下的步骤最后要达到的排版上的目标是:所有图片都能正常显示,但都默认靠左(有些阅读器可以设定图片强制居中显示)。文字段落和图片分开,文字不会环绕图片,也就是不会左边一半是图,右边一半是文字。虽然那样效果更好,但难度太大,不易实现。
 
 
 
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值