XML入门(1)

简介

XML,也称为可扩展标记语言(Extensible Markup Language),是一种可以用来创建自己的标记的标记语言。它由万维网协会(W3C)创建,用来克服 HTML的局限。和 HTML 一样,XML 基于 SGML — 标准通用标记语言(Standard Generalized Markup Language)。尽管 SGML 已在出版业使用了数十年,但其理解方面的复杂性使许多本打算使用它的人望而却步。XML 是为 Web 设计的,语法上要比SGML简单许多。

为什么需要 XML?

HTML始终是最成功的标记语言。几乎可以通过任何的设备(小到掌上电脑和手机,大道巨型机)上来查看HTML编辑。也可以通过特定的工具将HTML标记转换成语音或其他格式。既然HTML如此的出色,为什么还有新建XML呢?让我们先来看看下面这个例子吧。

<p><b>张三</b>

<br>

20

</br>

<I>中国湖南</I>

 

即使不用浏览器查看上面的HTML文档,也能看出这是某个人的个人信息。作为人,您能通过你的智慧来了解这个文档的意图,但是机器呢?这个文档只简单的浏览器如何显示该信息,但并没有告诉浏览器这信息是什么。

 

处理 HTML

 

现在如果要对这个HTML进行处理,希望能够抽取出个人信息中的姓名信息,下面可以使用如下算法。

找到有<b></b>标记中的内容。

尽管这个算法能够对这个示例其作用,但是对于全世界所有的网页,这个算法根本起不了作用。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值