关于爬虫,python中就有很多相关的包,今天我们就来介绍一下urllib与requests的区别,以爬取百度翻译为例,首先我们访问百度翻译,F12,了解到使用的方法为post,好了不多说了上代码
###urllib
from urllib import request,parse import json if __name__ == '__main__': while True: baseurl = 'http://fanyi.baidu.com/sug' keyword = input('请输入你要查询的单词:') data = { 'kw': keyword } data = parse.urlencode(data).encode() # 需要给数据编码,现在data是bytes格式, #调试用的的话可以输入以下代码(已注释) #data = parse.urlencode(data) #print(data) rsp = request.urlopen(baseurl, data=data) json_data = rsp.read().decode()#解码后的数据是json格式,所以要import json #print(json_data) json_data = json.loads(json_data) for i in json_data['data']: print(i['k'], '---->', i['v'])
-------------------------------------------------------------------------------------------------------------------------------------------------------------
#####requests
import requests if __name__ == '__main__': while True: baseurl = 'http://fanyi.baidu.com/sug' keyword = input('请输入你要查询的单词:') data = { 'kw': keyword } #这里不用给data进行编码 #但是下面要指明post方法 #rsp=requests.request('post',url=baseurl,data=data) #上下两代码等价 rsp = requests.post(url=baseurl, data=data) #而这里也不用导入 json模块,直接使用对象的json()方法即可 json_data = rsp.json() for i in json_data['data']: print(i['k'], '---->', i['v']) 总的来说,requests将urlib进行了更高级的封装,不用人为的编码解码,将其自动化,