爬虫前缀知识

声明:本文大部分内容来自21天搞定Python分布爬虫教学视频

url详解

URLUniform Resource Locator的简写,称为统一资源定位符。
一个URL由以下几部分组成:

scheme://host:port/path/?query-string=xxx#anchor
  • sheme:访问的协议,一般为http、https、ftp
  • host:主机名,域名,比如www.baidu.com
  • port:端口号。当访问一个网站时,浏览器默认使用80端口
  • path:查找路径。一个页面下的哪个目录,比如:www.jianshu.com/trending/now
  • query-string:查询字符串,比如:www.baidu.com/s?wd=python,后面的wd=python就是查询字符串
  • anchor:锚点,前端用来做页面定位的

在浏览器中请求一个url,浏览器会对这个url进行一个编码:除英文字母、数字和部分符号外,其余的均使用% + 十六进制码值进行编码。比如当我在百度搜索刘德华时,wd字段如下:
在这里插入图片描述
而将该链接复制到txt文本文件中时,则变成了一串由% + 十六进制码值组成的串:
在这里插入图片描述

常用的请求方法

http协议中,定义了8种请求方法。这里只介绍两种常用的请求:getpost请求

  • get请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源产生任何影响的时候会用到get请求
  • post请求:向服务器发送数据(登录)、上传文件等,会对服务器资源产生影响的时候会使用post请求

不过有的时候,有些网站和服务器会做反爬虫机制,比如将getpost请求的对应情景对调

常见响应状态码

  1. 200:请求正常,服务器正常地返回数据。但是数据不一定正确
  2. 301:永久重定向。比如访问www.jingdong.com时,会重定向到www.jd.com
  3. 302:临时重定向。比如在访问一个需要登录的页面的时候,如果此时并没有登录,则会临时重定向到登录页面
  4. 400:请求的url在服务器上找不到。换句话说就是请求url错误
  5. 403:服务器拒绝访问,权限不够
  6. 404:请求失败,请求所希望得到的资源未被在服务器上发现
  7. 500:服务器内部错误。可能是服务器出现了bug
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值