CMarkup介绍(三)

深入Markup分析器

编译者:知足者

2004717

原文http://www.firstobject.com/dn_markparser.htm

       虽然Markup经常被叫做是“分析器”,但是分析保是Cmarkup功能中的一部分,另外Cmarkup还支持文档的导航、创建和修改,还有其它如文件I/O、字符集及64位编码转换等功能。然而分析器是Cmarkup一个最重要的功能,因为这样可以导入和访问现有XML文件。

       分析器在SetDocLoad方法中分析文档,并建立定位数组,这是一个非验证的分析器,这表明它不会依照着DTDSchema来检查文档的正确性。它只会检查格式的好坏,如果结束标签不匹配开始标签它会产生一个错误,如果没有根元素存在会产生一个错误,或者其它一些不正确的结点样式它也会产生一个错误。

       7.0版本中,分析器使用了新的分析方法,不再使用递归实现。在以前的版本中,使用递归方法实现时,每次在另一个元素中发现一个元素就调用自己,当它到达父结点的结束标签时返回。因为每次嵌套调用都要增加局部变量和参数到堆栈中,但是在堆栈的尺寸是有限的任何平台上,例如掌上操作系统,这时,递归就成为一个问题了。虽然大多数的文件不会大于10个元素的深度(嵌套),也许在栈中只需要500bytes,然而,这仍是一个潜在的危险。新的分析器使用了一个叫NodeStack的小数组,它就像一个栈,但是它在堆里的。

它保持着一直到当前深度的所有被嵌套的元素的标签名。

       分析函数x_ParseElem实际上相当简单,它通过调用x_ParseNode查找和检查下一个结点来循环所有的结点,直到文档的结束。关于结点类型的讨论可以看在Nodes的文章。元素的结束标签被表示成0的结点类型,因为它是元素结点的结束。

    NodeStack用来记录被嵌套的元素,当一个起始标签被遇到时,它将呆在NodeStack中,直到相对应的结束标签被发现。如果一个元素A包含其它一些元素,那么这些元素将会放到NodeStack中,并且置于元素A的上面,在恢复父元素(元素A)之前,需要匹配它们的结束标签然后从NodeStack中删除。

       x_ParseNode函数是根据在文档中给定结点起始字符的偏移量来识别一个结点。出于对速度和简单考虑,结点被分析只是从第一个字符前进做一个简单的循环,在结点的类型被确定前,保持一个比特标志状态。

       如果第一字符是小于号“<,它就是一个标签“<..>(对于文本和空格),如果是标签,检查第二个字符,它可能是元素标签名的起始、或者一个斜线(结束标签)、或者是一个感叹号(是注释、CDATA段或DOCTYPE)或是问号(PI),如果是感叹号,你必须要得到下一个字符来判断结点的类型。一旦知道了结点类型,分析器就可以正确扫描这种结点类型相应的结束字符串。

如果第一个字符不是小于号“<”,同时也不空格,那么它是一个文本结点,并且这个结点一直要到一个小于号”<”或者到文档的结束。如果第一个字符是一个空格,那么它也要一直到小于号”<”或文档结束,但是当看到第一个非空格就表明它是一个文本结点。如果到结点的结束都没有遇到非空格,那么,它就是一个空格结点。

现在,让我们这样的步骤来处理下面的简单XML文档。

<?xml version="1.0"?><test> hello world </test>

首先调用x_ParseNode,开始字符是文档的第一个字符,如果是小于号,表明是标签,所以OPENTAG位被设置,下一个字符是一个问号,那么在OPENTAG状态中,表明这是一个处理指令(PI),现在知道了结点类型,不需要设置OPENTAG位了。它会扫描PI的结束字符串 ?>,再返回。

第二步,调用x_ParseNode,开始字符是测试元素的第一个字符,是小于号,表明这是一个标签,所以设置OPENTAG位,下一个字符是一个有效字符,是元素标签名的第一个字符,那么在OPENTAG状态中,意味着这是一个文本结点。现在知道了结点类型,就不需要再设置OPENTAG位了。它会扫描到元素标签的结束字符”>”,接着返回。

第三步,调用x_ParseNode,起始字符是“ Hello World”的第一个字符,这不是小于号了,它是一个空格,所以TEXTORWS (文本或空格)位要被设置。下一个字符是文本字符,所以在EXTORWS 状态中,就意味着这是一个文本结点,现在,解析器知道了结点类型,就不用再设置 TEXTORWS 位了,它会扫描小于号或文档的结束,然后返回。

第四步,调用 x_ParseNode , ,开始字符是测试元素结束标签的第一个字符,这是一个小于号,表明它是标签,所以要设置 OPENTAG 位,下一个字符是斜线,在 OPENTAG 状态中,这意味着它是一个结束标签,现在知道标签的类型了,不用设置 OPENTAG 位了,它会扫描结束标签的结束字符“ > ”,然后返回。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值