编写网页爬虫需要的一些前置知识(1):HTML

最新推荐文章于 2022-04-17 17:32:11 发布

自言自语的外星人

最新推荐文章于 2022-04-17 17:32:11 发布

阅读量257

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Crazysai2012/article/details/109111228

版权

爬虫获取网页数据前，需了解HTML基本结构。HTML是超文本标记语言，非编程语言，由标记标签组成，如、、

、
和等。浏览器解析HTML标签呈现网页内容。

摘要由CSDN通过智能技术生成

爬虫最主要的任务就是获取网站的数据和信息，所以必须先了解网页的基础结构等知识才能有效的获取数据

关于HTML的基础：

1，HTML 是用来描述网页的一种语言:

HTML 指的是超文本标记语言 (Hyper Text Markup Language)
HTML 不是一种编程语言，而是一种标记语言 (markup language)
标记语言是一套标记标签 (markup tag)
HTML 使用标记标签来描述网页

2，HTML 标记标签通常被称为 HTML 标签 (HTML tag)。

HTML 标签是由尖括号包围的关键词，比如
HTML 标签通常是成对出现的，比如和
标签对中的第一个标签是开始标签，第二个标签是结束标签
开始和结束标签也被称为开放标签和闭合标签

3，HTML 文档 = 网页

HTML 文档也被称为网页，主要有HTML标签组成
Web 浏览器的作用是读取 HTML 文档，并以网页的形式显示出它们。浏览器不会显示 HTML 标签，而是使用标签来解释页面的内容。

例子：

（1）这个网页代码包含了最基本的head标签（用于描述网站信息）和body标签（网页要显示的内容）
（2）在body中包含了,h1的标题标签和p的段落标签
（3）p标签中又包含了超链接a的标签

最低0.47元/天解锁文章

自言自语的外星人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
编写网页爬虫需要的一些前置知识(1):HTML

爬虫最主要的任务就是获取网站的数据和信息，所以必须先了解网页的基础结构等知识才能有效的获取数据关于HTML的基础：1，HTML 是用来描述网页的一种语言:HTML 指的是超文本标记语言 (Hyper Text Markup Language)HTML 不是一种编程语言，而是一种标记语言 (markup language)标记语言是一套标记标签 (markup tag)HTML 使用标记标签来描述网页2，HTML 标记标签通常被称为 HTML 标签 (HTML tag)。HTML 标签是由尖括
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。