2. python爬虫基础-HTTP原理

http原理

URL((Uniform Resource Locator)

  • 统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置
    和访问方法的一种简洁的表示,是互联网上标准资源的地址。
  • 例如:必应的URL:https://cn.bing.com/?setmkt=en-US&setlang=en-US

Hypertext(超文本)

  • 浏览器里面看到的网页就是超文本解析而成,其网页源代码是一系列html代码,如img表示图片,p指定段落
    一段超文本示例

HTTP原理

  • http和https:访问资源需要的协议类型,还有其他的类型,ftp,sftp,smb等;
  • http:hyper text transfer protocol,超文本传输协议,网络传输超文本数据到本地浏览器的传送协议,保证高效而准确的传送超文本文档;
  • https : Hyper Text Transfer Protocol over Secure Socket Layer,以安全为目标的http通道,http下加入ssl层
    ✓ 作用:建立一个信息安全通道来保证数据传输的安全,确认网站的真实性。

http请求过程

  • 浏览器中输入url后,浏览器向网站所在服务器发送了一个请求,网站服务器接收请求,并对这个请求进行处理和解析,然后返回对应的响应,传回给浏览器,再通过浏览器解析出来。
    http请求过程

请求:可分为四部分

  • 请求的网站(request url)
  • 请求的方法
  • 请求头
  • 请求体

请求的方法

  • get请求
    ✓ 请求中的参数包含在url里面
    ✓ 请求提交的数据最多只有1024字节
    ✓ 百度中输入关键字,wd表示要搜索的关键字

  • post请求
    ✓ 表单提交时候发起,用户登录
    ✓ 数据以表单的形式传输,不会体现在url中
    ✓ 请求提交的数据没有大小限制
    ✓ 数据传输更安全(参数不会体现在url中)

  • 请求头:用来说明服务器要使用的附加信息,比较重要的信息有cookie,user-agent
    请求头

  • 请求体:一般承载的内容是post请求中的表单数据,对于get请求,请求体为空。

  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值