JavaScript 解析html（DOM）

最新推荐文章于 2024-06-20 14:26:49 发布

Angel

最新推荐文章于 2024-06-20 14:26:49 发布

阅读量4.8k

点赞数

文章标签： html javascript 文档 xml xhtml object

本文链接：https://blog.csdn.net/Angel_He/article/details/7414064

版权

HTML DOM定义了访问和操作HTML文档的标准方法。HTML DOM 把HTML文档呈现为带有元素、属性和文本的树结构（节点树）。

HTML DOM简介

HTML文档对象模型（HTML Document Object Model）定义了访问和处理HTML文档的标准方法。

您应当具备的基础知识

在继续学习之前，您需要对下面的知识有基本的了解：

◆HTML / XHTML

◆JavaScript

什么是DOM？

通过JavaScript，您可以重构整个HTML文档。您可以添加、移除、改变或重排页面上的项目。要改变页面的某个东西，JavaScript就需要对HTML文档中所有元素进行访问的入口。这个入口，连同对HTML元素进行添加、移动、改变或移除的方法和属性，都是通过文档对象模型来获得的（DOM）。

在1998年，W3C发布了第一级的DOM规范。这个规范允许访问和操作HTML页面中的每一个单独的元素。所有的浏览器都执行了这个标准，因此，DOM的兼容性问题也几乎难觅踪影了。DOM可被JavaScript用来读取、改变HTML、XHTML以及XML文档。DOM被分为不同的部分（核心、XML及HTML）和级别（DOM Level 1/2/3）：

◆Core DOM：定义了一套标准的针对任何结构化文档的对象。

◆XML DOM：定义了一套标准的针对XML文档的对象。

◆HTML DOM：定义了一套标准的针对HTML文档的对象。

HTML DOM 节点

HTML文档中的每个成分都是一个节点。

节点

根据DOM，HTML文档中的每个成分都是一个节点。DOM是这样规定的：

◆整个文档是一个文档节点

◆每个HTML标签是一个元素节点

◆包含在HTML元素中的文本是文本节点

◆每一个HTML属性是一个属性节点

◆注释属于注释节点

Node层次

节点彼此都有等级关系。HTML文档中的所有节点组成了一个文档树（或节点树）。HTML文档中的每个元素、属性、文本等都代表着树中的一个节点。树起始于文档节点，并由此继续伸出枝条，直到处于这棵树最低级别的所有文本节点为止。下面这个图片表示一个文档树（节点树）：

HTML DOM 节点树

一棵节点树中的所有节点彼此都是有关系的。

文档树（节点数）

 
 
 请看下面这个HTML文档：  
  
<html> 
  
  <head> 
  
    <title>DOM Tutorial</title>   
  
  </head>   
  
  <body>   
  
    <h1>DOM Lesson one</h1>   
  
    <p>Hello world!</p>   
  
  </body>   
  
</html>

上面所有的节点彼此间都存在关系。除文档节点之外的每个节点都有父节点。举例，<head> 和 <body>的父节点是<html>节点，文本节点"Hello world!"的父节点是节点。

大部分元素节点都有子节点。比方说，<head>节点有一个子节点：<title>节点。<title>节点也有一个子节点：文本节点"DOM Tutorial"。当节点分享同一个父节点时，它们就是同辈（同级节点）。比方说，<h1>和 是同辈，因为它们的父节点均是<body>节点。

节点也可以拥有后代，后代指某个节点的所有子节点，或者这些子节点的子节点，以此类推。比方说，所有的文本节点都是<html>节点的后代，而第一个文本节点是<head>节点的后代。节点也可以拥有先辈。先辈是某个节点的父节点，或者父节点的父节点，以此类推。比方说，所有的文本节点都可把<html>节点作为先辈节点。

HTML DOM访问节点

通过DOM，您可访问HTML文档中的每个节点。

查找并访问节点

你可通过若干种方法来查找您希望操作的元素：

◆通过使用 getElementById() 和 getElementsByTagName() 方法。

◆通过使用一个元素节点的parentNode、firstChild以及lastChild属性。

getElementById() 和 getElementsByTagName()

getElementById() 和 getElementsByTagName()这两种方法，可查找整个HTML文档中的任何HTML元素。

这两种方法会忽略文档的结构。假如您希望查找文档中所有的元素，getElementsByTagName()会把它们全部找到，不管元素处于文档中的哪个层次。同时，getElementById()方法也会返回正确的元素，不论它被隐藏在文档结构中的什么位置。这两种方法会像您提供任何你所需要的HTML元素，不论它们在文档中所处的位置！getElementById()可通过指定的ID来返回元素：

 
 
 document.getElementById("ID");

注释：getElementById() 无法工作在XML中。在XML文档中，您必须通过拥有类型id的属性来进行搜索，而此类型必须在XML DTD中进行声明。

getElementsByTagName() 方法会使用指定的标签名返回所有的元素（作为一个节点列表），这些元素是您在使用此方法时所处的元素的后代。getElementsByTagName() 可被用于任何的HTML元素：

getElementsByTagName() 语法

 
 
 document.getElementsByTagName("标签名称");

或者：

 
 
 document.getElementById('ID').getElementsByTagName("标签名称");

实例 1

下面这个例子会返回文档中所有元素的一个节点列表：

 
 
 document.getElementsByTagName("p");

实例 2

下面这个例子会返回所有元素的一个节点列表，且这些元素必须是id为"maindiv"的元素的后代：

 
 
 document.getElementById('maindiv').getElementsByTagName("p");

节点列表（nodeList）

当我们使用节点列表时，通常要把此列表保存在一个变量中，就像这样：

 
 
 var x=document.getElementsByTagName("p");

现在，变量x包含着页面中所有元素的一个列表，并且我们可以通过它们的索引号来访问这些元素。注释：索引号从0开始。您可以通过使用length属性来循环遍历节点列表：

 
 
 var x=document.getElementsByTagName("p");  
  
for (var i=;i<x.length;i++)  
  
  {   
  
  // do something with each paragraph  
  
  }

您也可以通过索引号来访问某个具体的元素。要访问第三个元素，您可以这么写：

 
 
 var y=x[2];

parentNode、firstChild以及lastChild

这三个属性 parentNode、firstChild 以及 lastChild 可遵循文档的结构，在文档中进行“短距离的旅行”。请看下面这个HTML片段：

 
 
 <table> 
  
  <tr> 
  
    <td>John</td> 
  
    <td>Doe</td> 
  
    <td>Alaska</td> 
  
  </tr> 
  
</table>

在上面的HTML代码中，第一个<td>是<tr>元素的首个子元素（firstChild），而最后一个<td>是<tr>元素的最后一个子元素（lastChild）。此外，<tr>是每个<td>元素的父节点（parentNode）。对firstChild最普遍的用法是访问某个元素的文本：

 
 
 var x=[a paragraph];  
  
var text=x.firstChild.nodeValue;

parentNode属性常被用来改变文档的结构。假设您希望从文档中删除带有id为"maindiv"的节点：

 
 
 var x=document.getElementById("maindiv");  
  
x.parentNode.removeChild(x);

首先，您需要找到带有指定id的节点，然后移至其父节点并执行removeChild()方法。

根节点

有两种特殊的文档属性可用来访问根节点：

 
 
 document.documentElement   
  
document.body

第一个属性可返回存在于XML以及HTML文档中的文档根节点。第二个属性是对HTML页面的特殊扩展，提供了对<body>标签的直接访问。

HTML DOM 节点信息

nodeName、nodeValue以及nodeType包含有关于节点的信息。

节点信息

每个节点都拥有包含着关于节点某些信息的属性。这些属性是：

◆nodeName（节点名称）

◆nodeValue（节点值）

◆nodeType（节点类型）

nodeName

nodeName属性含有某个节点的名称。

◆元素节点的nodeName是标签名称

◆属性节点的nodeName是属性名称

◆文本节点的nodeName永远是#text

◆文档节点的nodeName永远是#document

注释：nodeName所包含的XML元素的标签名称永远是大写的

nodeValue

◆对于文本节点，nodeValue属性包含文本。

◆对于属性节点，nodeValue属性包含属性值。

◆nodeValue属性对于文档节点和元素节点是不可用的。

nodeType

nodeType属性可返回节点的类型。最重要的节点类型是：

一个 HTML DOM 实例

下面这个例子向我们展示了当一个用户在文档中点击时，HTML文档的背景颜色如何被改变。

 
 
 <html> 
  
<head> 
  
<script type="text/javascript"> 
  
function ChangeColor()  
  
{  
  
document.body.bgColor="yellow" 
  
}  
  
</script> 
  
</head> 
  
<body onclick="ChangeColor()"> 
  
Click on this document!  
  
</body> 
  
</html>