ebook_7种开放式eBook格式指南

ebook

电子书或电子书已经存在很长时间了,但是阅读电子书的便捷设备是相对较新的发展。 在手机,平板电脑和专用电子书阅读器之间,您生活中的某些设备很可能会用来阅读电子书。 这对于提高您的阅读量非常有用,但这引出了一个问题,即电子书有哪些开放文件格式,哪些是最好的。

为什么选择电子书?

电子书很棒。 我使用它们的时间比专门读者要长得多。

我很欣赏电子书使我能够随身携带多本文本,而不必承担数张纸的重担。 当然,在杂货店里排队等候时,我可能没有真正阅读过儒勒·凡尔纳的全部作品,但是让我知道以防万一,我感到很欣慰。 我也很欣赏他们给我找到我最喜欢的引文或段落的能力,以及视力不佳的读者可以放大文本以便阅读的事实,或者完全盲目的读者可以使他们的计算机阅读文本的事实。 我很高兴能在“重组文本”会议上做笔记,并将我的笔记与Pandoc转换为完全超链接的电子书,以供乘飞机回家时查看。

为什么打开?

首先,让我们确定本文仅介绍开放文件格式,以及原因。 电子书的开放格式最明显的优点是,开放格式可以转换为任何其他格式,这意味着您的图书可以在任何设备上阅读。 当您获得一种格式的书籍并拥有只能读取其他格式的设备或操作系统(OS)时,技术就会失败。 使用开放格式的基本级别不会发生这种情况。

开放格式还确保任何人都可以创建电子书。 笔和纸非常通用,因此,如果电子书格式关闭,那么我不妨学习速记。

最后,我只对完全开放的格式感兴趣; 有一些“足够开放”以进行转换,但开放度不足以使任何操作系统都可以创建它们,反之亦然。 这对我不起作用,特别是对于PowerPC Linux用户而言,x86二进制文件用于创建“某种开放式”电子书是没有用的。

有了序言,让我们看看那里有什么格式。


EPUB

无需花力气:自从电子书以来,EPUB格式是电子书最好的事情。 它简单 ,轻巧,跨平台且用途广泛。 它是通过结合功能完善的现有技术来构建新技术的理想开源模型。 EPUB文件基本上是HTML文件的集合,其中一些元数据位于zip文件中。

听起来很花哨,而且技术上也不错,但是制作EPUB就像使用Pandoc进行一行命令一样简单,也可以从Libre Office导出。

这是我用来将会议记录转换为EPUB的命令:

$ pandoc -f rst -t epub3 notes.rst \

-o allThingsOpen2015.epub

一个更复杂的命令,用于最近在线出版的一本书:

$ pandoc -f markdown -t epub3 book.md colophon.md \

-N --epub-stylesheet = style.css \

--epub-metadata = metadata.xml

--epub-cover-image =。/ images / cover-front.svg \

--epub-embed-font = kabel.ttf \

--epub-embed-font = Nouveau_IBM.ttf \

-o slackermedia.epub

您甚至可以使用标准的系统工具生成EPUB。 一个放在zip容器顶部的单行mimetype文件将容器标识为EPUB文档,该目录包含所有HTML资产和文件的目录将呈现一个有效的EPUB文件。 适当的目录可能会变得更加复杂,但这足以使您入门:

$ echo“ application / epub + zip> mimetype

$ zip -0Xq book.epub mimetype

$ zip -Xr9D book.epub META-INF / OEBPS /

EPUB格式很受欢迎并且得到了很好的支持。 许多设备都支持它,或者它们支持可以读取它的应用程序。 Firefox插件EPUB Reader允许在运行Firefox的任何设备上轻松访问EPUB 。 FBReader在计算机和移动设备上打开它们。 紧要关头,甚至可以解压缩EPUB文件并将其视为原始HTML。

简而言之,EPUB格式没有障碍。 它是开放的,可访问的并且功能强大。

优点

  • 使用HTML和简单的开源技术来构造通用的eBook格式。 可扩展,动态并且能够处理HTML可以处理的大多数内容。
  • EPUB使用标准HTML和CSS进行格式设置,允许用户根据需要覆盖样式,这意味着用户可以根据需要修改字体,颜色和大小。
  • 通过开放源代码EPUB阅读器应用程序,在许多电子阅读器设备以及大多数计算机和移动电话上得到了良好的支持。
  • 由于EPUB基于HTML,因此转换起来很容易。

坏处

  • 如果不进行转换,某些设备可能不支持EPUB。

判决

EPUB是电子书应有的格式,对我而言,EPUB是衡量所有其他格式的标准。 它在轻巧,开放且明智的容器中提供了丰富且易于阅读的书。


纯文本

原始的eBook格式是普通的旧ASCII(尽管希望今天会选择Unicode)。 这是计算中最通用的格式; 任何平台上的任何操作系统都可以读取它,任何文本处理器都可以从中转换。

优点

  • 任何人都可以创建纯文本,而无需任何特殊工具或知识。
  • 纯文本是转换成其他格式的安全可靠的来源。
  • 大多数设备都支持以一种或另一种方式查看纯文本。 Android设备可以在任何记事本或办公应用程序中查看纯文本,计算机具有文本编辑器,电子阅读器通常在默认的阅读应用程序中打开纯文本。 甚至某些便携式音乐播放器(以及任何装有Rockbox的音乐播放 )都可以查看纯文本。
  • 纯文本可以重新包装句子,以便内容可以动态调整为不同大小的屏幕。

缺点

  • 有争议的是,纯文本不是真的电子书格式。 它不能从目录超链接到特定章节,也不支持图像,依此类推。 从某种意义上讲,它没有利用电子书提供的任何点击好处,就可以使信息更快地定位。
  • 您可以为其他大小的屏幕动态更改文本的布局,但是如果作者的硬编码行在80个字符后中断,那么无论您的阅读器如何调整内容,格式都将自身限制为最多80个字符每行,或在不寻常的地方换行。

判决

可以肯定地说,虽然纯文本可以持久地面向未来并且可以确保跨设备的兼容性,但这并不是电子书的理想格式。 但是,只要文档的布局一致,便可以将纯文本轻松解析为其他格式。 为了确保格式的一致性,请考虑使用“降级”规则,例如重组文本(RST)


小说书

FictionBook(.fb2)电子书是一种XML格式,可将整本书放在一个文件中,包括任何图像。 因此,它不是要存储扫描的文档(例如对整个漫画书的完整扫描或历史传真),而是要作为一大部分基于文本的书来存储一个或几个图像。

作为XML,它继承了我们希望从电子书中获得的所有现代功能。 它可以包含超链接,字体样式和复杂的布局。 它本身是动态的,因此它将流畅地包装文本以适应任何尺寸的屏幕。

生成FictionBook文件与生成XML文件一样容易。 可以在任何文本编辑器中进行此操作(如果您是受虐狂,则可以使用很多echo语句),并且eReader会即时进行所有转换,以将图书显示为易于阅读的文档。

至少可以说,文件格式是XML,具有良好的结构,并且很容易被计算机甚至是人类解析(如果人类对XML标签视而不见)。

优点

  • FictionBook是一种使用无处不在的标记语言的开放格式,所有内容实际上都包含在一个文件中。
  • 富文本,带有图像,超链接以及本机动态内容和自动换行。
  • 只要您熟悉XML及其相关工具链(例如xmllintnxml-mode之类的工具),就易于创建和转换。

缺点

  • 专用电子阅读器设备上的支持不佳。 但是,如果您的设备运行FBReader ,则可以读取.fb2文件。
  • 一本书/一个文件的传统可能会被.fb3淘汰,.fb3正朝着包含封面图像,书文件和元数据文件(如EPUB)的zip文件发展。

判决

尽管FictionBook格式在某些语言中得到了支持,但它在英语电子书市场中并不流行,因此,您可能会或可能没有机会获得.fb2文件而无需专门查找它。

如果确实发生在某个人身上,或者打算生成自己的东西,那么这是否是您的“正确”选择完全取决于您使用的东西。 如果您使用或乐于开始使用读取.fb2文件的应用程序,那么它是一种非常完善的格式,具有自包含性和鲁棒性。


HTML

HTML是网络语言,是一种功能强大的文档格式,具有超链接,动态文本流,样式,图像链接等。 看来,这是作为eBook格式的理想选择,确实,它成为许多最受欢迎的eBook格式(包括EPUB)的基础。

HTML作为一种格式,不仅简单易学,而且无处不在。 您可以在任何平台上编写它,并且显然可以在任何平台上查看它。 与XML相比,它简单而幸福:

<p style =“ color:#666;”>

您好<a href=" http://example.com ">世界</a>。

<img src =“ images / tux.png” />

</ p>

HTML可能易于编写和阅读,但事实证明它存在一些缺点。 您也许可以链接到图像,但是如何将它们存储在哪里? 电子阅读器在将目录作为书籍时往往做得不好,因此某种程度上,图像的路径需要保持完整。 HTML作品也倾向于分成几页,因此一本25章的书可能包含25个以上的文件。 您如何在电子阅读器中管理所有这些?

答案是,您当然不会。 如果您已经从网络上下载了HTML文档的集合,并希望随身携带以备以后使用,请尝试将HTML打包为电子阅读器可以将其视为电子书的格式。 转换很简单,只要所有路径都是正确的(如果您在Firefox中查看包含HTML文件的文件夹,并且一切看起来正确,则您的路径是正确的),则可以使用Pandoc从HTML转换。 一个简单的示例,假设您的目标设备对EPUB感到满意:

$ pandoc -f html -t epub3 index.html about.html \

Chapter1.html colophon.html -o book.epub

优点

  • HTML是网络上的通用语言
  • HTML易于编写和阅读。 它支持动态和超链接的文本,样式和图像。 结构良好,可以很容易地从HTML转换为HTML。

缺点

  • 许多电子阅读器将不同的文件和资产视为不同的文档。
  • 并非所有电子阅读器都支持。

判决

HTML是一种很好的格式,在文件规范方面非常适合电子书,但是由于电子阅读器倾向于每本书假定一个文件,因此在兼容性方面苦苦挣扎。 如果您碰巧要随身携带一个充满HTML的目录,请将其转换为适当的eBook格式,以获得更好的兼容性。


PDF格式

PDF文件格式被开发为一种传递用于打印页面的内容的方法。 它最初被认为是“飞行前”渲染器:用户期望看到的与打印机完全一样的数字版本。

大概是因为缺少任何明显的东西,人们最终开始使用PDF作为分发几乎所有他们不希望其他用户直接编辑的文档的手段。

优点

  • 保留书籍的印刷版式,无论是否适用于数字屏幕。
  • 大多数电子阅读器和设备上受支持的格式。

缺点

  • 用于打印的PDF并非独立于分辨率,也不适合屏幕尺寸。
  • 在转换方面几乎是死胡同的格式。 可以手动复制和粘贴基础文本(如果文本已嵌入),但是否则您将无法从PDF转换为其他格式。
  • 可以渲染非常大的文件,具体取决于创建时使用的图像压缩选项。
  • 设备可能支持PDF格式,但不能以可读和方便的方式显示大多数PDF。 从图像类型支持到字体冲突,所有内容都可能阻碍内容的呈现。

判决

从某种意义上说,PDF格式更适合于传递样式而不是内容。 PDF往往很大,效率低下且具有特定的分辨率。 由于电子书的普及,已经开发了“重排”功能,尽管必须创建PDF并将重排写入其中,即使如此,也很少有设备支持该功能。

如果可以选择,请避免使用电子书用PDF。 如果您自己生成内容,请使用PDF以外的任何格式。 如果您在没有任何发言权的情况下获得了PDF,并且在设备上阅读时遇到困难(在第10页左右之后,不断放大内容以通过显微镜镜头阅读句子会变得很费力),请使用pdftotext从PDF中提取文本:

$ pdftotext〜/ book.pdf book-text.txt

pdftohtml

$ pdftohtml〜/ book.pdf book-html.html

这些是获取PDF内容的好方法,但是结果(和可读性)各不相同。


事实是,将书籍从传统的排版转换为数字格式并非易事。 如果是这样的话, 古腾堡计划将在今天完成。 即使是经过扫描并通过光学字符识别运行的书,也需要进行大量清理,并且至少要进行一次错误检查。

有些书不能完全转换为文本文档,因为它们不仅仅是文本文档。 为了保留一些书籍,最好的解决方案是扫描每页,然后将所有扫描结果转储到某个容器中。

看来,这是PDF的完美用例,并且出于兼容性的考虑,但是,如果您的电子阅读器功能特别丰富,或者您在计算机或移动设备上阅读电子书,则可能支持漫画书档案或Djvu。

DjVu

DjVu格式不仅是电子书格式,还是压缩格式。 DjVu文件通常较小,甚至比jpeg小,但质量相同。 对于小型电子书而言,差异可能是微不足道的,但对于较大的作品,这可能意味着80mb下载与20mb下载之间的差异。

不幸的是,专用电子书阅读器电子设备上几乎不存在.djvu支持。 尽管它不是手机和计算机上的内置功能,但一些应用程序支持查看和创建DjVu文件,包括djvulibre软件包, Evince文档查看器和Android上的FBReader

优点

  • 优于jpeg的压缩,可打印页面的传真,可嵌入的文本; 在功能上,是PDF的更高效,开放和简单的替代品。

缺点

  • 在电子阅读器上不受广泛支持。
  • 特定于分辨率。

判决

一种良好的格式,具有文件大小和效率方面的优势,但是由于支持有限,因此日常使用可能不实用。


漫画档案

顾名思义,漫画档案库是一种用于数字存储和消费漫画书和图画小说的格式。 它也非常适合您没有文字,想要或需要以图形方式查看的任何书籍。

当然,从本质上来说,这与PDF存在相同的问题,即图形无法为您的eReader屏幕动态地自动重新包装,但是格式本身是非常开放的,并且如果您有时间和耐心的话可以进行重组。

实际上,漫画档案只是一个包含一系列图像(分别为.cbz和.cbr)的.zip或.rar文件夹。 电子书阅读器将文件视为一本书,并按顺序显示图像,并即时对其进行解压缩。

优点

  • 仅使用现有技术的开放格式。 不肿; 一种非常干净的格式。
  • 大多数情况下,图像类型无关紧要(尽管您的阅读器可能不会),因此图像压缩级别是可调的。

缺点

  • 特定于分辨率。

判决

作为存储和消费的一种格式,这是对漫画和扫描的传真进行数字存档的理想方法。 它只是压缩的图像目录,您甚至可以存储高质量的主版本作为主副本,并为设备创建质量较低的“便携式”版本。


总览

电子书格式的难题可以归结为:有源格式,有消费格式(通常由电子阅读设备支持的格式决定),还有供应商或分销商为您提供的内容。

不幸的是,这些并不总是彼此一致的。

如果世界默认使用开放格式,那就太好了,因为开放格式易于转换,而且可以通过编程生成它们,从而根据您的需求为您提供最佳选择。 并非总是如此,因此由您决定哪种格式最适合您。

好消息是,尽管DRM(卖方对书进行数字限制),通常也可以选择转换。 处理您的内容,以所需的方式对其进行处理,以使其适合您,并始终保留最开放的格式作为备份。

翻译自: https://opensource.com/education/15/11/ebook-open-formats

ebook

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值