有道翻译爬虫(绕路版)

这两天,学习了一下爬虫(简单的),然后在第三步学习爬取有道翻译的时候,绕了很大弯路,中间看了不少博客,可能也是一个看一个吧,的确从中学到了不少知识,但是也影响了最直接最简单的思维方式,在这里纪念一下。

一、urlopen的使用

先从最基本的入手,研究Request的使用

先看参数列表 

url是必须填的,后面参数都有默认值

data 这个是发送求请需要传递的参数。如果要传递data参数,urlopen将使用post方式请求。
timeout 这个是求请超时时长。我们可以设置时长,如果请求时间过长,则会抛出异常。
cafile 这个是CA证书。
capath 这个是CA证书路径。
cadefault=Flase 这个已经被弃用了,不用关注这个了。
context 这个可以指定SSL安装验证设置,比如我们可以设置忽略证书验证等等。

先看最简单的,只加url参数(或者像注释 中那样使用Request对象保存url,用urlopen(req)的方法访问

from urllib import request

if __name__=="__main__":
    response = request.urlopen("http://fanyi.baidu.com")
    html=response.read()#获取的信息都是二进制码
    html=html.decode("utf-8")
    #req=request.Request("http://fanyi.baidu.com/")
	#response=request.urlopen(req)
	#html=response.read().decode("utf-8")
	#html=response.geturl()
	#html=response.getcode()	
	print(html)

二、使用data

先弄清为什么要使用data,不能说大家都用,我们就用,应该遵循在能达到相同目的的情况下,尽量选择最简单的方法。

data参数是可选的,如果要添加data,它要是字节流编码格式的内容,即bytes类型,
通过bytes()函数可以进行转化,另外如果你传递了这个data参数,它的请求方式就不再
是GET方式请求,而是POST

GET与POST的区别:

(1)post更安全(不会作为url的一部分,不会被缓存、保存在服务器日志、以及浏览器浏览记录中)
(2)post发送的数据更大(get有url长度限制)
(3)post能发送更多的数据类型(get只能发送ASCII字符)
(4)post比get慢
(5)post用于修改和写入数据࿰

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值