JavaScript 解析html(DOM)

原创 2012年03月31日 07:22:18

HTML DOM定义了访问和操作HTML文档的标准方法。HTML DOM 把HTML文档呈现为带有元素、属性和文本的树结构(节点树)。

HTML DOM简介

HTML文档对象模型(HTML Document Object Model)定义了访问和处理HTML文档的标准方法。

您应当具备的基础知识

在继续学习之前,您需要对下面的知识有基本的了解:

◆HTML / XHTML

◆JavaScript

什么是DOM?

通过JavaScript,您可以重构整个HTML文档。您可以添加、移除、改变或重排页面上的项目。要改变页面的某个东西,JavaScript就需要对HTML文档中所有元素进行访问的入口。这个入口,连同对HTML元素进行添加、移动、改变或移除的方法和属性,都是通过文档对象模型来获得的(DOM)。

在1998年,W3C发布了第一级的DOM规范。这个规范允许访问和操作HTML页面中的每一个单独的元素。所有的浏览器都执行了这个标准,因此,DOM的兼容性问题也几乎难觅踪影了。DOM可被JavaScript用来读取、改变HTML、XHTML以及XML文档。DOM被分为不同的部分(核心、XML及HTML)和级别(DOM Level 1/2/3):

◆Core DOM:定义了一套标准的针对任何结构化文档的对象。

◆XML DOM:定义了一套标准的针对XML文档的对象。

◆HTML DOM:定义了一套标准的针对HTML文档的对象。

HTML DOM 节点

HTML文档中的每个成分都是一个节点。

节点

根据DOM,HTML文档中的每个成分都是一个节点。DOM是这样规定的:

◆整个文档是一个文档节点

◆每个HTML标签是一个元素节点

◆包含在HTML元素中的文本是文本节点

◆每一个HTML属性是一个属性节点

◆注释属于注释节点

Node层次

节点彼此都有等级关系。HTML文档中的所有节点组成了一个文档树(或节点树)。HTML文档中的每个元素、属性、文本等都代表着树中的一个节点。树起始于文档节点,并由此继续伸出枝条,直到处于这棵树最低级别的所有文本节点为止。下面这个图片表示一个文档树(节点树):

HTML DOM 节点树

一棵节点树中的所有节点彼此都是有关系的。

文档树(节点数)

 
  1. 请看下面这个HTML文档:  
  2. <html> 
  3.   <head> 
  4.     <title>DOM Tutorial</title>   
  5.   </head>   
  6.   <body>   
  7.     <h1>DOM Lesson one</h1>   
  8.     <p>Hello world!</p>   
  9.   </body>   
  10. </html> 

上面所有的节点彼此间都存在关系。除文档节点之外的每个节点都有父节点。举例,<head> 和 <body>的父节点是<html>节点,文本节点"Hello world!"的父节点是<p>节点。

大部分元素节点都有子节点。比方说,<head>节点有一个子节点:<title>节点。<title>节点也有一个子节点:文本节点"DOM Tutorial"。当节点分享同一个父节点时,它们就是同辈(同级节点)。比方说,<h1>和 <p>是同辈,因为它们的父节点均是<body>节点。

节点也可以拥有后代,后代指某个节点的所有子节点,或者这些子节点的子节点,以此类推。比方说,所有的文本节点都是<html>节点的后代,而第一个文本节点是<head>节点的后代。节点也可以拥有先辈。先辈是某个节点的父节点,或者父节点的父节点,以此类推。比方说,所有的文本节点都可把<html>节点作为先辈节点。

HTML DOM访问节点

通过DOM,您可访问HTML文档中的每个节点。

查找并访问节点

你可通过若干种方法来查找您希望操作的元素:

◆通过使用 getElementById() 和 getElementsByTagName() 方法。

◆通过使用一个元素节点的parentNode、firstChild以及lastChild属性。

getElementById() 和 getElementsByTagName()

getElementById() 和 getElementsByTagName()这两种方法,可查找整个HTML文档中的任何HTML元素。

这两种方法会忽略文档的结构。假如您希望查找文档中所有的<p>元素,getElementsByTagName()会把它们全部找到,不管<p>元素处于文档中的哪个层次。同时,getElementById()方法也会返回正确的元素,不论它被隐藏在文档结构中的什么位置。这两种方法会像您提供任何你所需要的HTML元素,不论它们在文档中所处的位置!getElementById()可通过指定的ID来返回元素:

 
  1. document.getElementById("ID");  

注释:getElementById() 无法工作在XML中。在XML文档中,您必须通过拥有类型id的属性来进行搜索,而此类型必须在XML DTD中进行声明。

getElementsByTagName() 方法会使用指定的标签名返回所有的元素(作为一个节点列表),这些元素是您在使用此方法时所处的元素的后代。getElementsByTagName() 可被用于任何的HTML元素:

getElementsByTagName() 语法

 
  1. document.getElementsByTagName("标签名称");  

或者:

 
  1. document.getElementById('ID').getElementsByTagName("标签名称");  

实例 1

下面这个例子会返回文档中所有<p>元素的一个节点列表:

 
  1. document.getElementsByTagName("p");  

实例 2

下面这个例子会返回所有<p>元素的一个节点列表,且这些<p>元素必须是id为"maindiv"的元素的后代:

 
  1. document.getElementById('maindiv').getElementsByTagName("p");  

节点列表(nodeList)

当我们使用节点列表时,通常要把此列表保存在一个变量中,就像这样:

 
  1. var x=document.getElementsByTagName("p"); 

现在,变量x包含着页面中所有<p>元素的一个列表,并且我们可以通过它们的索引号来访问这些<p>元素。注释:索引号从0开始。您可以通过使用length属性来循环遍历节点列表:

 
  1. var x=document.getElementsByTagName("p");  
  2. for (var i=;i<x.length;i++)  
  3.   {   
  4.   // do something with each paragraph  
  5.   } 

您也可以通过索引号来访问某个具体的元素。要访问第三个<p>元素,您可以这么写:

 
  1. var y=x[2]; 

parentNode、firstChild以及lastChild

这三个属性 parentNode、firstChild 以及 lastChild 可遵循文档的结构,在文档中进行“短距离的旅行”。请看下面这个HTML片段:

 
  1. <table> 
  2.   <tr> 
  3.     <td>John</td> 
  4.     <td>Doe</td> 
  5.     <td>Alaska</td> 
  6.   </tr> 
  7. </table> 

在上面的HTML代码中,第一个<td>是<tr>元素的首个子元素(firstChild),而最后一个<td>是<tr>元素的最后一个子元素(lastChild)。此外,<tr>是每个<td>元素的父节点(parentNode)。对firstChild最普遍的用法是访问某个元素的文本:

 
  1. var x=[a paragraph];  
  2. var text=x.firstChild.nodeValue;  

parentNode属性常被用来改变文档的结构。假设您希望从文档中删除带有id为"maindiv"的节点:

 
  1. var x=document.getElementById("maindiv");  
  2. x.parentNode.removeChild(x);  

首先,您需要找到带有指定id的节点,然后移至其父节点并执行removeChild()方法。

根节点

有两种特殊的文档属性可用来访问根节点:

 
  1. document.documentElement   
  2. document.body  

第一个属性可返回存在于XML以及HTML文档中的文档根节点。第二个属性是对HTML页面的特殊扩展,提供了对<body>标签的直接访问。

HTML DOM 节点信息

nodeName、nodeValue以及nodeType包含有关于节点的信息。

节点信息

每个节点都拥有包含着关于节点某些信息的属性。这些属性是:

◆nodeName(节点名称)

◆nodeValue(节点值)

◆nodeType(节点类型)

nodeName

nodeName属性含有某个节点的名称。

◆元素节点的nodeName是标签名称

◆属性节点的nodeName是属性名称

◆文本节点的nodeName永远是#text

◆文档节点的nodeName永远是#document

注释:nodeName所包含的XML元素的标签名称永远是大写的

nodeValue

◆对于文本节点,nodeValue属性包含文本。

◆对于属性节点,nodeValue属性包含属性值。

◆nodeValue属性对于文档节点和元素节点是不可用的。

nodeType

nodeType属性可返回节点的类型。最重要的节点类型是:

一个 HTML DOM 实例

下面这个例子向我们展示了当一个用户在文档中点击时,HTML文档的背景颜色如何被改变。

 
  1. <html> 
  2. <head> 
  3. <script type="text/javascript"> 
  4. function ChangeColor()  
  5. {  
  6. document.body.bgColor="yellow" 
  7. }  
  8. </script> 
  9. </head> 
  10. <body onclick="ChangeColor()"> 
  11. Click on this document!  
  12. </body> 
  13. </html> 

Dom解析Html文档中的元素

Dom解析Html文档中的元素一、理论Dom我们并不陌生,之前我写过一篇XML的解析方法,里面有一种解析方法叫Dom4j,其实Dom4j和Dom的区别就是版本高了点、功能更强了一点,其实本质是一样的,...
  • hongmeikaile
  • hongmeikaile
  • 2011年03月17日 07:53
  • 5459

浅谈JavaScript模拟$(HTML字符串)实现创建DOM对象

JavaScript里动态创建标准DOM对象一般使用:document.createElement()方法。 但在实际使用过程中,可能会希望直接根据HTML字符串创建DOM节点,模拟$(HTML字符...
  • zhouziyu2011
  • zhouziyu2011
  • 2017年04月25日 15:29
  • 1019

php解析html类库simple_html_dom(爬虫相关)

下载地址:https://github.com/samacs/simple_html_dom 解析器不仅仅只是帮助我们验证html文档;更能解析不符合W3C标准的html文档。它使用了类似jQuer...
  • h330531987
  • h330531987
  • 2017年04月22日 12:15
  • 2433

javascript篇三dom解析html

DOM解析html DOM:(Document Object Model)文档对象模型 文档:封装的标签 样式的文本。 对象:封装文档的实例。 模型:文档的共同特征。 sax解析:是民间...
  • wangxueying_123
  • wangxueying_123
  • 2017年05月08日 17:50
  • 124

基于Dom的C++解析html

采集网页内容时,经常要读取html标签,解析后获取其中的文字信息,Python有BeautifulSoup,javascript可以使用jQuery的find,依靠parent-child关系,id,...
  • tiplip
  • tiplip
  • 2017年04月06日 11:55
  • 2092

Jquery、Java解析html字符串成dom对象,遍历dom对象获取图片元素(或者其子元素)

Jquery、Java解析html字符串成dom对象,遍历dom对象获取图片元素(或者其子元素) 使用 Jquery解析html: .parseHTML方法:将html字符串解析成dom对象,他返回...
  • ZixiangLi
  • ZixiangLi
  • 2017年12月01日 18:23
  • 105

python:解析html(HTMLParser、SGMLParser)

其实python里面有xml.dom模块,但是这次却不能用,为啥呢?因为服务器传回的html从xml角度看不是良构的,没有闭合的标签、没有被注释掉的javascript和css,xml.dom没法处理...
  • my2010Sam
  • my2010Sam
  • 2013年11月12日 18:11
  • 5902

C#对HTML文档的解析

相信很多人都有过HTML文档解析的需求。比如我们抓取了某1个网站的页面数据,格式就是HTML的格式。以前我们都是通过正则表达式来进行解析,但是发现有一些问题。解析HTML文档时并不容易,如果文档的格式...
  • guwei4037
  • guwei4037
  • 2013年12月29日 21:29
  • 9685

如何用Javascript解析HTML?

问题的提出是我需要将另一个网页的某些内容解析出来并集成到当前正在处理的网页中。第一想法就是,使用dojo.xhrGet得到网页的内容,再使用某种Javascript Library来解析。我熟悉的do...
  • yaaron
  • yaaron
  • 2011年10月08日 19:47
  • 1858

php解析html类库(第3方类库)simple_html_dom(爬虫相关)

下载地址:https://github.com/samacs/simple_html_dom 解析器不仅仅只是帮助我们验证html文档;更能解析不符合W3C标准的html文档。它使用了类似jQu...
  • qq_33862644
  • qq_33862644
  • 2018年01月31日 11:50
  • 30
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:JavaScript 解析html(DOM)
举报原因:
原因补充:

(最多只允许输入30个字)