Python网络爬虫(六):网页语言HTML

1.什么是HTML?

HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写,它规定了自己的语法规则,用来表示比“文本”更丰富的意义,比如图片,表格,链接等。浏览器(IE,FireFox等)软件知道HTML语言的语法,可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。

在Chrome浏览器中右键->检查,可以看到网页的html编码:



2.HTML文件的基本架构

html文件一般包括head和body两个部分。


<html>...</html>用来标记该文件的范围;

<head>...</head>用于包含整个文档的一般信息,比如文档的标题(<title>标签用于包含标题),对整个文档的描述,文档的关键字等等。

<body>...</body>用于包含文档的主要内容。


3.HTML文档的具体内容

在html的head和body内部,通常又包含多行文字,这些文字以标签+内容的形式书写。内容是指要展现的部分,而标签则指明了内容的某些属性,比如作用、段落、颜色、宽度、高度、超链接等。

读懂一个网页文件,其实就是在读哪些标签的含义。

HTML对文本、图片、链接、分段与换行、表格、列表、框架等都设定了标签,学习HTML语言其实就是在学习这些标签。

具体内容参见:

https://deerchao.net/tutorials/html/html.htm

http://www.w3school.com.cn/tags/tag_script.asp


4.一些常见的标签

  (1)script

<script type="text/javascript">
    document.write("Hello World!")
    </script>

<script> 标签用于定义客户端脚本,比如 JavaScript。

script 元素既可以包含脚本语句,也可以通过 src 属性指向外部脚本文件。
      必需的 type 属性规定脚本的 MIME 类型。
      JavaScript 的常见应用时图像操作、表单验证以及动态内容更新。

(2)link

用于来链接一个外部样式表。(外部样式)

http://www.w3school.com.cn/tags/tag_link.asp

(3)style

用于为文档定义样式信息。(内部样式)

http://www.w3school.com.cn/tags/tag_style.asp


(4)title
定义标题信息。
(5)div分区,p分段,br换行


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值