有道翻译爬虫（绕路版）

最新推荐文章于 2023-07-04 16:26:37 发布

beboxmiss

最新推荐文章于 2023-07-04 16:26:37 发布

阅读量854

点赞数

分类专栏：实战中练爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_32693561/article/details/116134674

版权

这两天，学习了一下爬虫(简单的），然后在第三步学习爬取有道翻译的时候，绕了很大弯路，中间看了不少博客，可能也是一个看一个吧，的确从中学到了不少知识，但是也影响了最直接最简单的思维方式，在这里纪念一下。

一、urlopen的使用

先从最基本的入手，研究Request的使用

先看参数列表

url是必须填的，后面参数都有默认值

data 这个是发送求请需要传递的参数。如果要传递data参数，urlopen将使用post方式请求。
timeout 这个是求请超时时长。我们可以设置时长，如果请求时间过长，则会抛出异常。
cafile 这个是CA证书。
capath 这个是CA证书路径。
cadefault=Flase 这个已经被弃用了，不用关注这个了。
context 这个可以指定SSL安装验证设置，比如我们可以设置忽略证书验证等等。

先看最简单的，只加url参数（或者像注释中那样使用Request对象保存url，用urlopen(req)的方法访问

from urllib import request

if __name__=="__main__":
    response = request.urlopen("http://fanyi.baidu.com")
    html=response.read()#获取的信息都是二进制码
    html=html.decode("utf-8")
    #req=request.Request("http://fanyi.baidu.com/")
	#response=request.urlopen(req)
	#html=response.read().decode("utf-8")
	#html=response.geturl()
	#html=response.getcode()	
	print(html)

二、使用data

先弄清为什么要使用data，不能说大家都用，我们就用，应该遵循在能达到相同目的的情况下，尽量选择最简单的方法。

data参数是可选的，如果要添加data，它要是字节流编码格式的内容，即bytes类型，
通过bytes()函数可以进行转化，另外如果你传递了这个data参数，它的请求方式就不再
是GET方式请求，而是POST

GET与POST的区别：

（1）post更安全（不会作为url的一部分，不会被缓存、保存在服务器日志、以及浏览器浏览记录中）
（2）post发送的数据更大（get有url长度限制）
（3）post能发送更多的数据类型（get只能发送ASCII字符）
（4）post比get慢
（5）post用于修改和写入数据࿰

最低0.47元/天解锁文章

beboxmiss

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
有道翻译爬虫（绕路版）

这两天，学习了一下爬虫(简单的），然后在第三步学习爬取有道翻译的时候，绕了很大弯路，中间看了不少博客，可能也是一个看一个吧，的确从中学到了不少知识，但是也影响了最直接最简单的思维方式，在这里纪念一下。一、urlopen的使用先从最基本的入手，研究Request的使用先看参数列表url是必须填的，后面参数都有默认值data这个是发送求请需要传递的参数。如果要传递data参数，urlopen将使用post方式请求。timeout这个是求请超时时长。我们可以设置时长，如果请求时间过...
复制链接

扫一扫