编写网页爬虫需要的一些前置知识(1):HTML

爬虫获取网页数据前,需了解HTML基本结构。HTML是超文本标记语言,非编程语言,由标记标签组成,如、、

等。浏览器解析HTML标签呈现网页内容。

摘要由CSDN通过智能技术生成

爬虫最主要的任务就是获取网站的数据和信息,所以必须先了解网页的基础结构等知识才能有效的获取数据

关于HTML的基础:


1,HTML 是用来描述网页的一种语言:

HTML 指的是超文本标记语言 (Hyper Text Markup Language)
HTML 不是一种编程语言,而是一种标记语言 (markup language)
标记语言是一套标记标签 (markup tag)
HTML 使用标记标签来描述网页

2,HTML 标记标签通常被称为 HTML 标签 (HTML tag)。

HTML 标签是由尖括号包围的关键词,比如
HTML 标签通常是成对出现的,比如
标签对中的第一个标签是开始标签,第二个标签是结束标签
开始和结束标签也被称为开放标签和闭合标签

3,HTML 文档 = 网页

HTML 文档也被称为网页,主要有HTML标签组成
Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用标签来解释页面的内容。




例子:

(1)这个网页代码包含了最基本的head标签(用于描述网站信息)和body标签(网页要显示的内容)
(2)在body中包含了,h1的标题标签和p的段落标签
(3)p标签中又包含了超链接a的标签


                
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值