天蛛爬虫学习笔记——HTTP基础知识

天蛛爬虫学习笔记——HTTP基础知识

1.URI、URL、URN的关系
URI全称为 Uniform Resource Identifier,即统一资源标志符,URL 的全称为 Universal Resource Locator,即统一资源定位符,URN全称为 Universal Resource Name,即统一资源名称。其中URL和URN都是URI的子集,由于URN只定义名称没有标记位置,所以用的比较少,通常用的都是URL。例如:https://editor.csdn.net/ 就是一个URL

2、超文本
在Chrome中按F12查看的网页HTML源代码就可以看做是超文本

3、HTTP、HTTPS
HTTP是超文本传说协议,HTTPS是HTTP的安全版,目前大部分网站都采用HTTPS协议

4、请求
包括4个内容:请求方法(Request Method)、请求的网址(Request URL)、请求头(Request Headers)、请求体(Request Body)
4.1、常用的请求方法:GET、POST
GET请求的参数包含在URL中,敏感信息建议用POST请求,会将信息放在表单中
4.2请求头:用来说明服务器需要的信息
Cookies:为了辨别用户进行会话跟踪储存在本地的数据,浏览器请求站点信息的时候会在请求头加上cookies信息,服务器就能识别用户身份
Referer:标记信息来源,可以做来源跟踪
User_Agent:简称UA,可是使服务器识别客户使用的浏览器类型
4.3请求体
请求体的内容一般是POST的表单数据

5、响应
5.1、响应状态码Ststus Code,200表示连接成功
在这里插入图片描述
5.2、响应体
爬虫中要解析的就是响应体的内容

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值