目录
XPath是一种在XML文档中查找信息的语言,可以使用它在HTML源代码文档中通过元素、属性等方式进行查找和提取数据。
1.HTML网页基础
HTML是用来描述网页的一种语言,其全称为Hyper Text Markup Language(超文本标记语言),这里首先要声明一点,HTML不是一种编程语言,而是一种标记语言。
我们打开百度浏览器认识一下网页结构:
可以看到内容是非常多的,毕竟百度浏览器是非常强大的。下面让我们简单了解一下基本结构:
在PyCharm中新建一个html文件:
<!DOCTYPE html> #声明为HTML文档
<html lang="en"> #根元素
<head> #文档数据存储,一般不会显示在网页上(不可见)
<meta charset="UTF-8"> #声明网页编码格式
<title>Title</title> #文档标题
</head>
<body>
#定义页面可见内容
</body>
</html>
当我在
<body>
#定义页面可见内容
</body>
添加一些内容时
例如:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>WHJ226</title>
</head>
<body>
<h1>PYTHON入门</h1>
<table border="1">
<tr>
<th>表头 1</th>
<th>表头 2</th>
</tr>
<tr>
<td>第一行第一列存放的数据</td>
<td>第一行第二列存放的数据</td>
</tr>