Python网络爬虫入门版笔记 一、HTTP协议

在笔记开始之前首先说明:此笔记是我看北京理工大学嵩天老师慕课网络爬虫课程时做的笔记,具体链接如下:北京理工大学网络爬虫与信息提取课程
嵩天老师讲解的也十分清楚,每节课程也十分精炼紧凑,很适合只掌握Python基础的小伙伴们入门网络爬虫,非常推荐各位一起参与学习。
前面刚开始的笔记比较简陋,后面记得比较详细清晰,希望各位谅解。此外,笔记中存在一些课程内容的截图,如有侵权,请联系我,我一定及时更正。如果笔记存在什么问题或者有可以改进的地方,也请各位评论区指正探讨,十分感谢。现在。就让我们一起开始学习爬虫吧。
哦对,学习爬虫最好要有一定的HTML基础能力(学习起来很快的 ),不然理解起来会很费劲。

HTTP协议

一、什么是HTTP

HTTP:Hypertext Transfer Protocol,超文本传输协议
http协议是基于“请求与响应“模式的、无状态的应用层协议。采用URL作为定位网络资源的标识。
无状态指的是本次请求与下一次请求并没有关联。应用层指的是,该协议工作在TCP协议之上。
URL可以理解为文件资源的Internet路径。

二、HTTP的作用

http拥有对资源进行操控的方法,主要有以下:

方法说明
GET请求URL位置的资源
HEAD请求URL位置资源的响应消息报告,即获得该资源的头部信息
POST请求向URL位置的资源后附加新的数据
PUT请求向URL位置存储一个资源,覆盖原URL位置的资源
PATCH请求局部更新URL位置的资源,即即改变该处资源的部分内容
DELETE请求删除URL位置存储的资源

上方的六个方法实际上就是Requests库主要的六个方法所提供的功能。
分别对应:

  • requests.get()
  • requests.head()
  • requests.post()
  • requests.put()
  • requests.patch
  • requests.delete()

上述方法在实际执行时并没有想象中的那么傻瓜,以requests.post()方法为例,在向服务器发送数据时,post方法会自动根据数据内容对数进行分类和处理,从而将数据放入服务器中的不同分区。

总结来说,HTTP协议通过URL对网络上的资源做定位,通过六个方法对资源进行操作,每一次操作都是独立无关联的。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值