学习get与post请求

最新推荐文章于 2024-07-27 14:52:27 发布

Line_Walker

最新推荐文章于 2024-07-27 14:52:27 发布

阅读量436

点赞数

分类专栏：爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_36589234/article/details/88067388

版权

爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.两种 HTTP 请求方法：GET 和 POST

2.断开网络后发出请求

3.了解什么是请求头，如何添加请求头。

1.两种 HTTP 请求方法：GET 和 POST

在客户机和服务器之间进行请求-响应时，两种最常被用到的方法是：GET 和 POST。

(1) GET - 从指定的资源请求数据。

请注意，查询字符串（名称/值对）是在 GET 请求的 URL 中发送的：

/test/demo_form.asp?name1=value1&name2=value2

有关 GET 请求的其他一些注释：

GET 请求可被缓存
GET 请求保留在浏览器历史记录中
GET 请求可被收藏为书签
GET 请求不应在处理敏感数据时使用
GET 请求有长度限制
GET 请求只应当用于取回数据

#使用get方法进行请求输出的结果
import requests
url='http://www.baidu.com'
respones=requests.get(url)
print('requests.get方法：',respones)
print(type(respones))
print(respones.text)

# 使用urllib.request.urlopen获得的response
import urllib
url='http://www.baidu.com'

#  # 利用urlopen方法向目标网址发送请求，并将请求结果存入response
respones=urllib.request.urlopen(url=url)
print(respones)
print('----------------')
print(respones.read())

使用 request.get 获得的response:

使用urllib.request.urlopen获得的response:

(3) POST - 向指定的资源提交要被处理的数据

请注意，查询字符串（名称/值对）是在 POST 请求的 HTTP 消息主体中发送的：

POST /test/demo_form.asp HTTP/1.1

Host: w3schools.com

name1=value1&name2=value2

有关 POST 请求的其他一些注释：

POST 请求不会被缓存

POST 请求不会保留在浏览器历史记录中

POST 不能被收藏为书签

POST 请求对数据长度没有要求

使用request.post 获得response：

	GET	POST
后退按钮/刷新	无害	数据会被重新提交（浏览器应该告知用户数据会被重新提交）。
书签	可收藏为书签	不可收藏为书签
缓存	能被缓存	不能缓存
编码类型	application/x-www-form-urlencoded	application/x-www-form-urlencoded 或 multipart/form-data。为二进制数据使用多重编码。
历史	参数保留在浏览器历史中。	参数不会保存在浏览器历史中。
对数据长度的限制	是的。当发送数据时，GET 方法向 URL 添加数据；URL 的长度是受限制的（URL 的最大长度是 2048 个字符）。	无限制。
对数据类型的限制	只允许 ASCII 字符。	没有限制。也允许二进制数据。
安全性	与 POST 相比，GET 的安全性较差，因为所发送的数据是 URL 的一部分。在发送密码或其他敏感信息时绝不要使用 GET ！	POST 比 GET 更安全，因为参数不会被保存在浏览器历史或 web 服务器日志中。
可见性	数据在 URL 中对所有人都是可见的。	数据不会显示在 URL 中。

2.断开网络后发出请求

URLError: <urlopen error [Errno 11001] getaddrinfo failed>

意思是：找不到主机，此错误表明网关找不到您尝试访问的网站的 IP 地址。

3.了解什么是请求头，如何添加请求头。

HTTP请求报文由3部分组成（请求行+请求头+请求体）：

<request line> #用来说明请求类型、要访问的资源以及使用的HTTP版本。
<headers>  #首部（header）用来说明服务器要使用的附加信息
<blank line>
[<request-body>] #在首部之后是一个空行，再此之后可以添加任意的其他数据[称之为主体（body）]。

下面是一个实际的请求报文：

①是请求方法，GET和POST是最常见的HTTP方法.

②为请求对应的URL地址，它和报文头的Host属性组成完整的请求URL.

③是协议名称及版本号。

④是HTTP的报文头，报文头包含若干个属性，格式为“属性名:属性值”，服务端据此获取客户端的信息。

(1) 常见的HTTP请求报文头属性

Accept : 请求报文可通过一个“Accept”报文头属性告诉服务端客户端接受什么类型的响应

Cookie: 客户端的Cookie就是通过这个报文头属性传给服务端

Referer : 表示这个请求是从哪个URL过来的，假如你通过google搜索出一个商家的广告页面，你对这个广告页面感兴趣，鼠标一点发送一个请求报文到商家的网站，这个请求报文的Referer报文头属性值就是http://www.google.com。

Accept-Charset：浏览器可接受的字符集。

Accept-Encoding：浏览器能够进行解码的数据编码方式，比如gzip。Servlet能够向支持gzip的浏览器返回经gzip编码的HTML页面。许多情形下这可以减少5到10倍的下载时间。

Accept-Language：浏览器所希望的语言种类，当服务器能够提供一种以上的语言版本时要用到。

Connection：表示是否需要持久连接。如果Servlet看到这里的值为“Keep- Alive”，或者看到请求使用的是HTTP 1.1（HTTP 1.1默认进行持久连接），它就可以利用持久连接的优点，当页面包含多个元素时（例如Applet，图片），显著地减少下载所需要的时间。要实现这一点，Servlet需要在应答中发送一个Content-Length头，最简单的实现方法是：先把内容写入 ByteArrayOutputStream，然后在正式写出内容之前计算它的大小。

Content-Length：表示请求消息正文的长度。

（2）谷歌浏览器(Chrome)查看http报文headers信息

①打开谷歌浏览器，随意输入要搜索的内容

②按下F12键，此时会弹出浏览器的调试台

③点击Network下Name栏下任一项

（3）如何添加请求头

在爬虫的时候，如果不添加请求头，可能网站会阻止一个用户的登陆，此时我们就需要添加请求头来进行模拟伪装，使用python添加请求头方法如下：

headers={"User-Agent" : "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",
  "Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
  "Accept-Language" : "en-us",
  "Connection" : "keep-alive",
  "Accept-Charset" : "GB2312,utf-8;q=0.7,*;q=0.7"}
r=requests.post("http://baike.baidu.com/item/火影忍者",headers=headers,allow_redirects=False)   #allow_redirects设置为重定向
r.encoding="UTF-8"
print(r.url)
#print(r.text)
print(r.headers)  #响应头
print(r.request.headers)  #请求头