开启 Python 爬虫之路 必知必会的知识

本文介绍了Python爬虫的基础知识,包括超文本(HTML)、URL和URI、HTTP和HTTPS协议,以及HTTP请求过程。讲解了HTTP请求的四个部分:请求方法(GET和POST的区别)、请求的网址、请求头(如Cookie、Referer、User-Agent)和请求体。同时,阐述了Web网页基础,包括HTML、CSS和JavaScript的作用。理解这些基础知识对于初学者掌握爬虫至关重要。
摘要由CSDN通过智能技术生成

一、爬虫基本原理

1. 超文本

超文本:Hypertext,我们在浏览器里看到的网页就是超文本解析而成的,其网页源代码是一系列 HTML 代码,里面包含了一系列标签,比如 img 显示图片,p 指定显示段落等。浏览器解析这些标签后,便形成了我们平常看到的网页,而网页的源代码 HTML 就可以称作超文本。

例如,我们在 Chrome 浏览器里面打开任意一个页面,比如我的 CSDN 博客首页,右击任一地方并选择 “检查” 项(或者直接按快捷键 F12),即可打开浏览器的开发者工具,这时在 Elements 选项卡即可看到当前网页的源代码,这些源代码都是超文本,如下图所示:

2. URL 和 URI

URI 的全称为 Uniform Resource Identifier,即统一资源标志符
URL 的全称为 Universal Resource Locator,即统一资源定位符

比如Github的图标

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值