简介
XML,也称为可扩展标记语言(Extensible Markup Language),是一种可以用来创建自己的标记的标记语言。它由万维网协会(W3C)创建,用来克服 HTML的局限。和 HTML 一样,XML 基于 SGML — 标准通用标记语言(Standard Generalized Markup Language)。尽管 SGML 已在出版业使用了数十年,但其理解方面的复杂性使许多本打算使用它的人望而却步。XML 是为 Web 设计的,语法上要比SGML简单许多。
为什么需要 XML?
HTML始终是最成功的标记语言。几乎可以通过任何的设备(小到掌上电脑和手机,大道巨型机)上来查看HTML编辑。也可以通过特定的工具将HTML标记转换成语音或其他格式。既然HTML如此的出色,为什么还有新建XML呢?让我们先来看看下面这个例子吧。
<p><b>张三</b>
<br>
20
</br>
<I>中国湖南</I>
即使不用浏览器查看上面的HTML文档,也能看出这是某个人的个人信息。作为人,您能通过你的智慧来了解这个文档的意图,但是机器呢?这个文档只简单的浏览器如何显示该信息,但并没有告诉浏览器这信息是什么。
处理 HTML
现在如果要对这个HTML进行处理,希望能够抽取出个人信息中的姓名信息,下面可以使用如下算法。
找到有<b></b>标记中的内容。
尽管这个算法能够对这个示例其作用,但是对于全世界所有的网页,这个算法根本起不了作用。