BiDi 排版算法

 


说明

本文内容参考 The Bidiretional Algorithm

本文并不是对The Bidirection Algorithm的翻译,而是将比较常碰到的问题摘录下来。同时从比较简单的例子来说明这个算法是应用的。因此也并没有覆盖里面所讲的每一个细节。同时比较可以借鉴的是我对算法的理解(当然,也有可能因理解的不准确而有偏差)。

目前网页的排版基本上分成LTR(从左到右,left-to-right)和RTL(从右到左,right-to-left)。比较多的语言默认的排版是LTR,比较典型的RTL有阿拉伯文和希伯来文。这里就是介绍如果两种不同的排版的文字在同一段文章里面是如何排版的。本文主要基于网页的排版,当然,很多其他软件的排版也是基于这种算法来排版的。

以下的例子都以阿拉伯文和英文来举例。其中大写字母表示阿拉伯文,比如AB C。小写字母表示英文,比如abc。同时因为LTR的排版比较简单,将基本上以RTL为例子。


术语介绍

首先是RLE和LRE。RLE是指嵌入在一段LTR文字中的RTL文字。例如 english text "I AM ARABIC" at the end,其中的"I AM ARABIC"就可以认为是RLE。反之为LRE。RLE和LRE是用来把一段文章分成不同层次的句子来处理的。比如刚才的句子中,在算法的处理过程中,会分成三个句子来分别处理,english text作为第0层的句子,I AM ARABIC作为第1层的句子,at the end 作为第2层的句子。

上面谈到的层是算法中比较关键的一个概念。其中分成嵌入层次(Embedding Level)和算法处理得将要结束的时候得到的每个字符的层次(Resolved Implicit Level)。嵌入层次由上面提到的RLE和LRE决定。

然后是RLM和LRM。英文里面叫Right-to-Left-Mark和Left-to-Right-Mark,是不可见的特殊字符。RLM可以认为是RTL排版的语言里面的一个强字符,而LRM可以认为是LTR排版的语言里面的一个强字符。

上面提到的强字符是也是一种很关键的概念。所谓强字符表示排版的系统知道这个字符是RTL的字符,任何一个阿拉伯的字符和希伯来的字符都可以认为是强字符(其类型为RTL),其他LTR语言的字母,文字也是强字符(其类型为LTR)。相对应的是弱字符,即排版系统不知道这个字符属于RTL还是LTR的字符,这种字符的排版取决于很多的因素(就是下面的算法的关键了)。比如数字 - 1,2,3...。还有一种是中性字符,比如标点符号 - 括号,逗号,句号...;空格。注意:引号并不总是(其实我还不太确定不成双成对的引号的处理办法,但如果引号是成双成对的话,那肯定是作为嵌入句子的分符号)代表中性字符,因为引号用来区分开不同的各个不同层的句子,以后会出现回各个不同句子的分割处。

排版最后要区分出来的是每个字符的方向,分成R和L两种。R表示向右,L表示想左。RTL强字符的方向是R,LTR强字符的方向是L。 


算法步骤

 

1. 拆分文章成一行一行

排版的开始需要将一段话分配到不同的行,不管是从左到右,还是从右到左,每行能够容纳的字符的数量是定的。因此系统会从第一个字符开始,一个一个字符计算宽度,当累积的宽度超过一行时,就从当前的字符断开,将之前所有的字符作为下面处理的基础。根据断行的不同,最终的排版的效果可能会有很根本的区别。
比如:

abc "I AM ARABIC" 2 ARABIC

如果到2的时候就断行,则abc "I AM ARABIC" 2会作为一行句子处理,这时候2会认为是前面I AM ARABIC" 2 的一部分,第一行会分成abc 和 I AM ARABIC" 2两句话(注意第一个引号作为嵌入的标志而移出了,第二个引号因为后面跟的是2,并不认为是嵌入的结束,因此作为句子的一部分进行处理了);而如果是到2前面断行,则第一行会分成 abc 和 I AM ARABIC两句(两个引号都认为是嵌入的标志)。

2. 拆分一行为不同层次的句子

根据引号(包括单双引号),把句子分成不同层次的句子。

比如:

abc "ARABIC english text" HEBREW TEXT

分成三个句子,

abc
ARABIC english text
HEBREW TEXT 

3. 决定每个句子的层次和方向

首先要从段落的初次层次说起。段落的初始层次可以是0和1,取决于当前段落的基本方向,如果基本方向是L,则为0,或者为1。当前段落的基本方向由段落中第一个强字符的方向决定,比如abc ARABIC 的初始层次为0,而(23) A abc的初始层次为1。但是如果在段落的更高层次的地方声明了段落的方向,则由声明的方向决定。

比如HTML中的dir属性,就可以定义段落的方向。<div dir="rtl">abc</div>将段落的方向定义为R,其初始层次为1。
然后每个句子的初始层次分别递增。

比如以上abc "ARABIC english text" HEBREW TEXT会分层以下的层次

0: abc
1: ARABIC english text
2: HEBREW TEXT 

4.确定一行中每个句子开始的方向和结束的方向

句子开始的方向和结束的方向是用来决定句子的开头或者结尾没有的弱字符。如123ab()这里的123就要根据句子开始的方向来决定(如何决定下面会提到),()则要根据句子结束的方向辅助来判断。
算法大概是这样的,一行最开始的句子的方向为段落的方向,结束的方向与开始的方向相反,以此类推下去。但一行最后一个句子结束

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值