目录
1.两种 HTTP 请求方法:GET 和 POST
-
在客户机和服务器之间进行请求-响应时,两种最常被用到的方法是:GET 和 POST。
(1) GET - 从指定的资源请求数据。
请注意,查询字符串(名称/值对)是在 GET 请求的 URL 中发送的:
/test/demo_form.asp?name1=value1&name2=value2
有关 GET 请求的其他一些注释:
- GET 请求可被缓存
- GET 请求保留在浏览器历史记录中
- GET 请求可被收藏为书签
- GET 请求不应在处理敏感数据时使用
- GET 请求有长度限制
- GET 请求只应当用于取回数据
#使用get方法进行请求输出的结果
import requests
url='http://www.baidu.com'
respones=requests.get(url)
print('requests.get方法:',respones)
print(type(respones))
print(respones.text)
# 使用urllib.request.urlopen获得的response
import urllib
url='http://www.baidu.com'
# # 利用urlopen方法向目标网址发送请求,并将请求结果存入response
respones=urllib.request.urlopen(url=url)
print(respones)
print('----------------')
print(respones.read())
使用 request.get 获得的response:
使用urllib.request.urlopen获得的response:
(3) POST - 向指定的资源提交要被处理的数据
请注意,查询字符串(名称/值对)是在 POST 请求的 HTTP 消息主体中发送的:
POST /test/demo_form.asp HTTP/1.1
Host: w3schools.com
name1=value1&name2=value2
有关 POST 请求的其他一些注释:
POST 请求不会被缓存
POST 请求不会保留在浏览器历史记录中
POST 不能被收藏为书签
POST 请求对数据长度没有要求
使用request.post 获得response:
| GET | POST |
后退按钮/刷新 | 无害 | 数据会被重新提交(浏览器应该告知用户数据会被重新提交)。 |
书签 | 可收藏为书签 | 不可收藏为书签 |
缓存 | 能被缓存 | 不能缓存 |
编码类型 | application/x-www-form-urlencoded | application/x-www-form-urlencoded 或 multipart/form-data。为二进制数据使用多重编码。 |
历史 | 参数保留在浏览器历史中。 | 参数不会保存在浏览器历史中。 |
对数据长度的限制 | 是的。当发送数据时,GET 方法向 URL 添加数据;URL 的长度是受限制的(URL 的最大长度是 2048 个字符)。 | 无限制。 |
对数据类型的限制 | 只允许 ASCII 字符。 | 没有限制。也允许二进制数据。 |
安全性 | 与 POST 相比,GET 的安全性较差,因为所发送的数据是 URL 的一部分。 在发送密码或其他敏感信息时绝不要使用 GET ! | POST 比 GET 更安全,因为参数不会被保存在浏览器历史或 web 服务器日志中。 |
可见性 | 数据在 URL 中对所有人都是可见的。 | 数据不会显示在 URL 中。 |
2.断开网络后发出请求
URLError: <urlopen error [Errno 11001] getaddrinfo failed>
意思是:找不到主机,此错误表明网关找不到您尝试访问的网站的 IP 地址。
3.了解什么是请求头,如何添加请求头。
HTTP请求报文由3部分组成(请求行+请求头+请求体):
<request line> #用来说明请求类型、要访问的资源以及使用的HTTP版本。
<headers> #首部(header)用来说明服务器要使用的附加信息
<blank line>
[<request-body>] #在首部之后是一个空行,再此之后可以添加任意的其他数据[称之为主体(body)]。
下面是一个实际的请求报文:
①是请求方法,GET和POST是最常见的HTTP方法.
②为请求对应的URL地址,它和报文头的Host属性组成完整的请求URL.
③是协议名称及版本号。
④是HTTP的报文头,报文头包含若干个属性,格式为“属性名:属性值”,服务端据此获取客户端的信息。
(1) 常见的HTTP请求报文头属性
Accept : 请求报文可通过一个“Accept”报文头属性告诉服务端 客户端接受什么类型的响应
Cookie: 客户端的Cookie就是通过这个报文头属性传给服务端
Referer : 表示这个请求是从哪个URL过来的,假如你通过google搜索出一个商家的广告页面,你对这个广告页面感兴趣,鼠标一点发送一个请求报文到商家的网站,这个请求报文的Referer报文头属性值就是http://www.google.com。
Accept-Charset:浏览器可接受的字符集。
Accept-Encoding:浏览器能够进行解码的数据编码方式,比如gzip。Servlet能够向支持gzip的浏览器返回经gzip编码的HTML页面。许多情形下这可以减少5到10倍的下载时间。
Accept-Language:浏览器所希望的语言种类,当服务器能够提供一种以上的语言版本时要用到。
Connection:表示是否需要持久连接。如果Servlet看到这里的值为“Keep- Alive”,或者看到请求使用的是HTTP 1.1(HTTP 1.1默认进行持久连接),它就可以利用持久连接的优点,当页面包含多个元素时(例如Applet,图片),显著地减少下载所需要的时间。要实现这一 点,Servlet需要在应答中发送一个Content-Length头,最简单的实现方法是:先把内容写入 ByteArrayOutputStream,然后在正式写出内容之前计算它的大小。
Content-Length:表示请求消息正文的长度。
(2)谷歌浏览器(Chrome)查看http报文headers信息
①打开谷歌浏览器,随意输入要搜索的内容
②按下F12键,此时会弹出浏览器的调试台
③点击Network下Name栏下任一项
(3) 如何添加请求头
在爬虫的时候,如果不添加请求头,可能网站会阻止一个用户的登陆,此时我们就需要添加请求头来进行模拟伪装,使用python添加请求头方法如下:
headers={"User-Agent" : "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",
"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language" : "en-us",
"Connection" : "keep-alive",
"Accept-Charset" : "GB2312,utf-8;q=0.7,*;q=0.7"}
r=requests.post("http://baike.baidu.com/item/火影忍者",headers=headers,allow_redirects=False) #allow_redirects设置为重定向
r.encoding="UTF-8"
print(r.url)
#print(r.text)
print(r.headers) #响应头
print(r.request.headers) #请求头