urllib（urllib2）默认只支持HTTP/HTTPS（POST方法）

最新推荐文章于 2024-01-23 12:45:06 发布

weixin_42152274

最新推荐文章于 2024-01-23 12:45:06 发布

阅读量880

点赞数

本文链接：https://blog.csdn.net/weixin_42152274/article/details/88284382

版权

POST方式：

上面我们说了Request请求对象的里有data参数，它就是用在POST里的，我们要传送的数据就是这个参数data

，data是一个字典，里面要匹配键值对。

有道词典翻译网站：

输入测试数据，再通过使用Fiddler观察，其中有一条是POST请求，而向服务器发送的请求数据并不是在url里，

那么我们可以试着模拟这个POST请求

于是，我们可以尝试用POST方式发送请求。

# -*- coding:utf-8 -*-

import urllib.request

from urllib import parse

import json

def transfrom(str):

# POST请求的目标URL

# url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null'

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

headers = {

'User_Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:59.0) Gecko/20100101 Firefox/59.0',

}

formData = {

'action':'FY_BY_REALTIME',

'client':'fanyideskweb',

'doctype':'json',

'from':'zh-CHS',

'i':str,

'keyfrom':'fanyi.web',

'to':'en',

'typoResult':'false',

'version':'2.1',

}

#print(formData)

#data = parse.urlencode(formData)

#直接转会报错，POST data should be bytes, an iterable of bytes,

#or a file object. It cannot be of type str.

data = parse.urlencode(formData).encode('utf-8')

#print(data)

request = urllib.request.Request(url,data=data,headers=headers)

response = urllib.request.urlopen(request)

result = response.read().decode('utf-8')

#json.loads() 是把 Json格式字符串解码转换成Python对象，

#如果在json.loads的时候出错，要注意被解码的Json字符的编码。(后面会讲到)

dict = json.loads(result)

print(type(dict))

print(dict['translateResult'][0][0]['tgt'])

if __name__ == '__main__':

str = input('请输入需要翻译的中文:')

transfrom(str)

发送POST请求时，需要特别注意headers的一些属性：

Content-Length: 144：是指发送的表单数据长度为144，也就是字符个数是144个。

X-Requested-With: XMLHttpRequest ：表示Ajax异步请求。

Content-Type: application/x-www-form-urlencoded ：表示浏览器提交 Web 表单时使用，表单数据会按照 name1=value1&name2=value2 键值对形式进行编码。

获取AJAX加载的内容

有些网页内容使用AJAX加载，只要记得，AJAX一般返回的是JSON,直接对AJAX地址进行post或get，就返回JSON数据了。

"作为一名爬虫工程师，你最需要关注的，是数据的来源"

# -*- coding:utf-8 -*-

#'ascii' codec can't encode characters in position 35-36: ordinal not in range(128)

import urllib.request

from urllib import parse

import ssl

import json

def getajax():

url = 'https://movie.douban.com/j/search_subjects?'

# 变动的参数

data = {

'page_limit':'20',

'page_start':'40',

'sort':'recommend',

'tag':'韩剧',

'type':'tv',

}

#转换成url编码格式（字符串）

data = parse.urlencode(data).encode('utf-8')

headers = {

'User_Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:59.0) Gecko/20100101 Firefox/59.0',

}

requestContent = ssl._create_unverified_context()

#url 连同 data,headers，一起构造Request请求

request = urllib.request.Request(url,data=data ,headers=headers)

# Request对象作为urlopen()方法的参数，发送给服务器并接收响应

response = urllib.request.urlopen(request,context=requestContent)

result = response.read()

#json.loads() 是把 Json格式字符串解码转换成Python对象，

dict = json.loads(result)

print(type(dict))

print(dict)

if __name__ == '__main__':

getajax()

以上代码执行结果如下：

Python2 版本Post请求相关代码：

于是，我们可以尝试用POST方式发送请求。

import urllib

import urllib2

# POST请求的目标URL

url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"

headers={"User-Agent": "Mozilla...."}

formdata = {

"type":"AUTO",

"i":"i love python",

"doctype":"json",

"xmlVersion":"1.8",

"keyfrom":"fanyi.web",

"ue":"UTF-8",

"action":"FY_BY_ENTER",

"typoResult":"true"

}

data = urllib.urlencode(formdata)

request = urllib2.Request(url, data = data, headers = headers)

response = urllib2.urlopen(request)

print response.read()

获取AJAX内容：

import urllib

import urllib2

# demo1

url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action"

headers={"User-Agent": "Mozilla...."}

# 变动的是这两个参数，从start开始往后显示limit个

formdata = {

'start':'0',

'limit':'10'

}

data = urllib.urlencode(formdata)

request = urllib2.Request(url, data = data, headers = headers)

response = urllib2.urlopen(request)

print response.read()

# demo2

url = "https://movie.douban.com/j/chart/top_list?"

headers={"User-Agent": "Mozilla...."}

# 处理所有参数

formdata = {

'type':'11',

'interval_id':'100:90',

'action':'',

'start':'0',

'limit':'10'

}

data = urllib.urlencode(formdata)

request = urllib2.Request(url, data = data, headers = headers)

response = urllib2.urlopen(request)

print response.read()

问题：为什么有时候POST也能在URL内看到数据？

GET方式是直接以链接形式访问，链接中包含了所有的参数，服务器端用Request.QueryString获取变量的值。如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。
POST则不会在网址上显示所有的参数，服务器端用Request.Form获取提交的数据，在Form提交的时候。但是HTML代码里如果不指定 method 属性，则默认为GET请求，Form中提交的数据将会附加在url之后，以?分开与url分开。
表单数据可以作为 URL 字段（method="get"）或者 HTTP POST （method="post"）的方式来发送。比如在下面的HTML代码中，表单数据将因为（method="get"）而附加到 URL 上：

<p>First name: <input type="text" name="fname" /></p>

</form>