Python爬虫-页面结构

Asura_____

已于 2022-03-07 00:45:52 修改

阅读量3.1k

点赞数 2

分类专栏： Python爬虫文章标签：其他爬虫 python

于 2022-03-07 00:05:58 首次发布

本文链接：https://blog.csdn.net/Asura_____/article/details/123320139

版权

Python爬虫专栏收录该内容

15 篇文章 2 订阅

订阅专栏

了解页面结构

我们知道爬虫作用的对象是一个个复杂的网页，而要从一个网页庞大的数据中提取出我们想要的信息，就要先了解网页页面的结构，找到其中的规律。
一个网页页面是使用HTML来描述的。HTML是HyperTextMarkup Language的缩写，意思是超文本标记语言。为了描述复杂的页面元素，还引入了标签Mark的概念。标签都是使用<>括起来的字符串，其中大部分标签都是成对的，如<html></html>、<head></head>、<body></body>等等，其中不带斜杠的称为起始标签，而带斜杠的称为结束标签，两个标签之间的是内容部分，这类成对的称为闭合标签；也有部分闭合标签是单个的，如<br/>、<hr/>,一般建议在这种标签后面加上斜杠。而不加斜杠的称为非闭合标签。

通过这些标签可以定义网页的结构，一个标准的页面基本结构为：

<!DOCTYPE html>
<html lang="zh-Hans">
  <head>
    <meta charset=gb18030" />
    <title>标题</title>
  </head>
  <body>
    页面内容
  </body>
</html>

其中可以看出，整个页面包含在<html>、</html>标签之间，其中分为两部分，<head>、</head>为网页头部，用来设置页面相关的参数；<body>、</body>之间为页体部分，其中包含页面的内容。参数大多是使用<meta/>标签来定义，例如charset用来设置网页使用的字符集。而title就是标题噜。

常用的标签

①table：表格

<table></table>

表格中可以添加属性长、宽、高：

<table width="200px" height="200px" boder="1px">
</table>

②tr：行、td:列

在table表格中添加行、列

<table width="200px" height="200px" border="1px">
            <tr>
                <td>
                    姓名
                </td>
                <td>
                    年龄
                </td>
                <td>
                    性别
                </td>
        </table>

如图：在这里插入图片描述

③li：列表项目

<li></li>

li表示行排列不能单独使用，需要嵌套在ul和ol里面配合使用。

④ul：无序列表（运用较广）

<ul>
            <li>
                大鹅
            </li>
            <li>    
                小鸡
            </li>
</ul>

在这里插入图片描述

⑤ol：有序列表

<ol>
            <li>穿衣</li>
            <li>下床</li>
            <li>洗漱</li>
</ol>

在这里插入图片描述

⑥a标签：超链接

<a href="http://www.baidu.com">百度</a>

在这里插入图片描述

Asura_____

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫-页面结构

在学习爬虫之前必须要清楚网页的页面结构，才能便于我们过滤出有用的信息(ง •_•)ง。
复制链接

扫一扫

专栏目录

Python爬虫-页面结构

了解页面结构

常用的标签

①table：表格

②tr：行、td:列

③li：列表项目

④ul：无序列表（运用较广）

⑤ol：有序列表

⑥a标签：超链接

“相关推荐”对你有帮助么？