Python爬虫初接触(一)

最近在试着学一些和爬虫有关的基础内容,总结至此

一、常见的请求Method

在Http协议中,定义了以下8种常见的请求方法:

序号方法描述
1GET请求指定的页面信息,并返回页面主体
2HEAD类似于GET,只不过返回的响应中没有具体的内容,用于获取报头
3POST向指定资源提交数据进行处理请求(例如提交表单或上传文件)。数据被包含在请求体中。POST请求可能会导致新的资源的建立或已有资源的修改
4PUT从客户端向服务器传送的数据取代指定的文档的内容
5DELETE请求服务器删除指定的页面
6CONNECTHTTP协议中,预留给能够将连接改为管道方式的代理服务器
7OPTIONS允许客户端查看服务器的性能
8TRACE回显服务器收到的请求,主要用于测试或诊断

二、常见的请求头参数

在http协议中,向服务器发送一个请求,数据分为三部分:第一个是把数据放在URL中第二个是把数据放在body中(post请求中)第三个是把数据放在head中

  • 1.User-Agent:浏览器名称。请求一个网页的时候,服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。
  • 2.Referer:表明当前这个请求是从哪个URL过来的。<这个可以用来做反爬虫技术:如果不是从指定页面过来的,就不作相关的响应>
  • 3.Cookie:http协议是无状态的,于是用Cookie来做标识。及如果一个人分别发送两次请求,服务器通过查看Cookie来判断是否是同一个人发送的。<一般用于登陆后才能访问的网站>
    在这里插入图片描述

三、常见的响应状态码

序号状态码描述
1200请求正常,服务器正常的返回数据
2301永久重定向。比如一个网址已经被永久修改,访问原网址时出现的状态码
3302临时重定向。比如在访问一个需要登陆的页面的时候,而此时没有登录,那么就会重定向到登录页面
4400请求的URL在服务器上找不到(通常为输入了错误的URL)
5403服务器拒绝访问,权限不够
6500服务器内部错误。可能是服务器出现bug了

在这里插入图片描述
在这里插入图片描述

四、零碎知识点

  1. http协议的服务器端口号为80,https协议的服务器端口号为443
    http://abc.com:80等价于abc.com,https://...abcd.com:443等价于abcd.com
  2. URL就是我们平时所说的网址,通常由6部分构成
    scheme://host:port/path/?query-string=xxx#anchor
序号名称描述
1scheme代表的是访问的协议,一般为http或https或ftp
2host主机名,域名
3port端口号,如http默认port为80
4path查找路径。如www.jianshu.com/trending/now,后面的trending/now就是path
5query-string查询字符串,如www.baidu.com/s?wd=python,后面的wd=python就是查询字符串
6anchor锚点,前端用来做定位的。相当于导航的目录
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值