Python爬虫-页面结构

了解页面结构

我们知道爬虫作用的对象是一个个复杂的网页,而要从一个网页庞大的数据中提取出我们想要的信息,就要先了解网页页面的结构,找到其中的规律。
一个网页页面是使用HTML来描述的。HTML是HyperTextMarkup Language的缩写,意思是超文本标记语言。为了描述复杂的页面元素,还引入了标签Mark的概念。标签都是使用<>括起来的字符串,其中大部分标签都是成对的,如<html></html><head></head><body></body>等等,其中不带斜杠的称为起始标签,而带斜杠的称为结束标签,两个标签之间的是内容部分,这类成对的称为闭合标签;也有部分闭合标签是单个的,如<br/><hr/>,一般建议在这种标签后面加上斜杠。而不加斜杠的称为非闭合标签。

通过这些标签可以定义网页的结构,一个标准的页面基本结构为:

<!DOCTYPE html>
<html lang="zh-Hans">
  <head>
    <meta charset=gb18030" />
    <title>标题</title>
  </head>
  <body>
    页面内容
  </body>
</html>

其中可以看出,整个页面包含在<html></html>标签之间,其中分为两部分,<head></head>为网页头部,用来设置页面相关的参数;<body></body>之间为页体部分,其中包含页面的内容。参数大多是使用<meta/>标签来定义,例如charset用来设置网页使用的字符集。而title就是标题噜。

常用的标签

①table:表格

<table></table>

表格中可以添加属性长、宽、高:

<table width="200px" height="200px" boder="1px">
</table>

②tr:行、td:列

在table表格中添加行、列

<table width="200px" height="200px" border="1px">
            <tr>
                <td>
                    姓名
                </td>
                <td>
                    年龄
                </td>
                <td>
                    性别
                </td>
        </table>

如图:在这里插入图片描述

③li:列表项目

<li></li>

li表示行排列不能单独使用,需要嵌套在ul和ol里面配合使用。

④ul:无序列表(运用较广)

<ul>
            <li>
                大鹅
            </li>
            <li>    
                小鸡
            </li>
</ul>

在这里插入图片描述

⑤ol:有序列表

<ol>
            <li>穿衣</li>
            <li>下床</li>
            <li>洗漱</li>
</ol>

在这里插入图片描述

⑥a标签:超链接

<a href="http://www.baidu.com">百度</a>

在这里插入图片描述

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值