Python 爬虫学习笔记(1) 爬虫原理及基础知识

爬虫原理

爬虫是机器模仿用户操作,并批量获取数据。通常是抓取网页数据。

基础知识

http

HTTP是一种无状态的协议,无状态是指Web浏览器和Web服务器之间不需要建立持久的连接。由于这一特性,http很难保存用户信息,比如,用户前面访问的页面,以及用户登录的信息,为了更方便客户端与服务器数据的交互,引入了cookie或者session,去维系客户端与服务器之间的状态同步,cookie存在客户端的硬盘中,session则以sessionID存客户端的硬盘中,session中的数据存在服务器中,cookie的存储容量为4kb,session不限。

HTTP遵循请求(Request)/应答(Response)模型。Web浏览器向Web服务器发送请求,Web服务器处理请求并返回适当的应答。

http请求方式

http请求属于应用层,在http请求之前,要进行TCP连接,即三次握手。客户端和服务器要确保双方都有接受和发送数据的能力,在三次握手的过程中,客服端和服务器相互之前发送的报文都是不带数据的,带数据的报文只能是在建立连接之后的。

HTTP1.0定义了三种请求方法: GET, POST 和 HEAD方法。
HTTP1.1新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

以下是这八种方法的简介:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值