关于爬虫,python中就有很多相关的包,今天我们就来介绍一下urllib与requests的区别,以爬取百度翻译为例,首先我们访问百度翻译,F12,了解到使用的方法为post,好了不多说了上代码
###urllib
from urllib import request,parse
import json
if __name__ == '__main__':
while True:
baseurl = 'http://fanyi.baidu.com/sug'
keyword = input('请输入你要查询的单词:')
data = {
'kw': keyword
}
data = parse.urlencode(data).encode() # 需要给数据编码,现在data是bytes格式,
#调试用的的话可以输入以下代码(已注释)
#data = parse.urlencode(data)
#print(data)
rsp = request.urlopen(baseurl, data=data)
json_data = rsp.read().decode()#解码后的数据是json格式,所以要import json
#print(json_data)
json_data = json.loads(json_data)
for i in json_data['data']:
print(i['k'], '---->', i['v'])
-------------------------------------------------------------------------------------------------------------------------------------------------------------
#####requests
import requests
if __name__ == '__main__':
while True:
baseurl = 'http://fanyi.baidu.com/sug'
keyword = input('请输入你要查询的单词:')
data = {
'kw': keyword
}
#这里不用给data进行编码
#但是下面要指明post方法
#rsp=requests.request('post',url=baseurl,data=data)
#上下两代码等价
rsp = requests.post(url=baseurl, data=data)
#而这里也不用导入 json模块,直接使用对象的json()方法即可
json_data = rsp.json()
for i in json_data['data']:
print(i['k'], '---->', i['v'])
总的来说,requests将urlib进行了更高级的封装,不用人为的编码解码,将其自动化,
博客主要介绍Python中urllib与requests的区别,以爬取百度翻译为例,通过访问百度翻译并使用F12得知使用post方法,随后将展示相关代码。


被折叠的 条评论
为什么被折叠?



