跟连乐一起学Scala-XML处理

欢迎加入Scala讨论QQ群212859367,和连乐一起讨论学习!

XML处理

XML字变量

val doc = <html><head><title>Hello,Scala</title><body>...</body></head></html>

XML节点

Node类是所有XML节点类型的祖先。

例子:

val items = new NodeBuffer
items += <li>Fred</li>
itmes += <li>Wilma</li>
val nodes: NodeSeq = items

**元素属性
要处理某个元素的属性键和值,可以用attraibutes属性。

val elem = <a href="http://www.baidu.com">The Baidu Site</a>
val url = elem.attributes("href")

上面的调用产出的是一个节点序列,不是字符串。

如果你很肯定在你的属性当中不存在未被解析的实体,则可以简单地调用text方法,将节点序列转换为字符串:

val url = "elem.attributes("href").text
//如果不存在这个属性,就会返回null.

内嵌表达式

你可以在XML字面量中包含Scala代码,动态的计算出元素内容。

<ul><li>{items(0)}</li><li>{items(1)}</li></ul>
//每段代码都会被求值,其结果会被拼接到XML树中。

你不但可以在XML字面量中包含Scala代码,被内嵌的Scala代码还可以继续包含XML字变量。

<ul>{for (i <- items) yield <li>{i}</li>}</ul>

以上这是在XML中套Scala代码,再套XML。


在属性中使用表达式

<img src={makeURL(fileName)}/>
//makeURL函数将会返回一个字符串,而该字符串将会成为属性值。

内嵌的代码块也可以产出一个节点序列。如果你想要在属性中包含实体引用或原子的话,看看这个:

<a id={new Atom(1)} ... />

如果内嵌代码块返回null或者None,该属性不会被设置。

<img alt={if (description == "TODO") null else description} ... />

类XPath表达式

NodeSeq类提供了类似那个XPath中/和//操作符的方法。
由于//表示注释,因此不是合法的操作符。
Scala用\和\替代。

val list = <dl><dt>Java</dt><dd><dt>Scala</dt><dd>Odersky</dd></dl>
val language = list \ "dt"

通配符可以匹配任何元素:

doc \ "body" \ "_" \ "li"
//找到所有的li元素。

doc \\ "img"
// “\\”操作符可以定位任何深度的后代。

以@开头的字符串可以定位属性。

img \ "@alt"
//返回给顶点的alt属性

\或\的结果是一个节点序列。它可能是单个节点,不过除非你十分确信,否则你应该遍历它,而不是直接当做单个节点处理:

for (n <- doc \\ "img") 处理n

如果你只是对\或者\的结果调用text,所有结果序列中的文本都会被串接在一起:

(<img src="test.jpg"/><img src="hello.jpg"/> \\"@src").text
//将会返回字符串“test.jpghello.jpg

模式匹配

你可以在模式匹配表达式中使用XML字面量。

node match {
    case <img/> => ...
    ...
}

如果node是一个带有任何属性但没有后代的img元素,则第一个匹配会成功。
要匹配任意多的项,如下:

cas <li>{_*}</li> => ...

处理通配符,你也可以使用变量名,成功匹配到的内容会被绑定到该变量上。

case <li>{child}</li> => child.text

要匹配一个文本节点,可以如下:

case <li>{Text(item)}</li> => item

要把节点序列帮到变量,如下:

case <li>{children @ _*}</li> =>for (c <- children) yield c

修改元素和属性

Scala中XML节点和节点序列是不可变的。如果你要编辑一个节点,则必须创建一个拷贝,给出需要做的修改,然后拷贝未被显式修改的部分。

val list = <ul><li>Fred</li><li>Wilma</li></ul>
val list2 = list.copy(lavel = "ol")
//上面代码会创建一个list的拷贝,将标签ul修改为ol

XML变换

xml类库提供了一个RuleTranfonner类,该类可以将一个或多个RewriteRule实例应用到某个节点及其后代。

    val rule1 = new RewriteRule {
    override def transform(n: Node) = n match {
        case e @<ul>{_*}</ul> => e.asInstanceOf[Elem].copy(label = "ol")
    }
}

之后,你可以使用如下命令,来对某棵xml树进行变换了:

val transformed = new RuleTransformer(rule1).transform(root)

你可以在RuleTransormer的构造器中给出多个规则:

val transformer = new RuleTransformer(rule1, rule2, rule3)

加载和保存

要从文件中加载xml文档,调用xml对象的loadFile方法:

import scala.xml.XML
val root = XML.loadFile("myfile.xml")

也可以从java.io.InputStream或java.io.Reader或URL加载:

val root2 = XML.load(new FileInputStream("myfile.xtml"))
val root3 = XML.load(new InputStreamReader(new FileInputStream("myfile.xml", "UTF-8")))
val root4 = XML.load(new URL("http://www.baidu.com/index.html"))

Scala还提供另外一个解析器:

import scala.xml.parsing.ConstructingParser
import java.io.File
val parser = ConstructingParser.fromFile(new File("myfile.xml"), perserveWS = true)
val doc = parser.document
val root = doc.docElem
//注意ConstructingParser返回一个类型为Document的节点,调用其docElem方法可以取得文档根节点。

命名空间

在XML中,命名空间用来避免名称冲突,类似Java中包的概念。
XML命名空间是一个URI(通常也是URL)。

欢迎加入Scala讨论QQ群212859367,和连乐一起讨论学习!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值