了解页面结构
我们知道爬虫作用的对象是一个个复杂的网页,而要从一个网页庞大的数据中提取出我们想要的信息,就要先了解网页页面的结构,找到其中的规律。
一个网页页面是使用HTML来描述的。HTML是HyperTextMarkup Language的缩写,意思是超文本标记语言。为了描述复杂的页面元素,还引入了标签Mark的概念。标签都是使用<>括起来的字符串,其中大部分标签都是成对的,如<html></html>
、<head></head>
、<body></body>
等等,其中不带斜杠的称为起始标签,而带斜杠的称为结束标签,两个标签之间的是内容部分,这类成对的称为闭合标签;也有部分闭合标签是单个的,如<br/>
、<hr/>
,一般建议在这种标签后面加上斜杠。而不加斜杠的称为非闭合标签。
通过这些标签可以定义网页的结构,一个标准的页面基本结构为:
<!DOCTYPE html>
<html lang="zh-Hans">
<head>
<meta charset=gb18030" />
<title>标题</title>
</head>
<body>
页面内容
</body>
</html>
其中可以看出,整个页面包含在<html>
、</html>
标签之间,其中分为两部分,<head>
、</head>
为网页头部,用来设置页面相关的参数;<body>
、</body>
之间为页体部分,其中包含页面的内容。参数大多是使用<meta/>
标签来定义,例如charset用来设置网页使用的字符集。而title就是标题噜。
常用的标签
①table:表格
<table></table>
表格中可以添加属性长、宽、高:
<table width="200px" height="200px" boder="1px">
</table>
②tr:行、td:列
在table表格中添加行、列
<table width="200px" height="200px" border="1px">
<tr>
<td>
姓名
</td>
<td>
年龄
</td>
<td>
性别
</td>
</table>
如图:
③li:列表项目
<li></li>
li表示行排列不能单独使用,需要嵌套在ul和ol里面配合使用。
④ul:无序列表(运用较广)
<ul>
<li>
大鹅
</li>
<li>
小鸡
</li>
</ul>
⑤ol:有序列表
<ol>
<li>穿衣</li>
<li>下床</li>
<li>洗漱</li>
</ol>
⑥a标签:超链接
<a href="http://www.baidu.com">百度</a>