1 urllib
提供了一系列用于操作URL的功能
1.1 简单爬虫
1.引入请求模块——from urllib import request
2.打开网页——request.urlopen()
3.读取网页——read
此处以https://www.douban.com
为例子
from urllib import request
with request.urlopen('https://www.douban.com') as f:
data=f.read() #二进制流文件
with open('./douban.html','wb') as fw:
f.write(data)
此时查看该文件,就可以看到爬取的网页。
1.2 urlopen入门
1.2.1 查看urlopen()
参数如下
>>> from inspect import signature
>>> signature(request.urlopen)
<Signature (url, data=None, timeout=<object object at 0x000002066EEE7D80>, *, cafile=None, capath=None, cadefault=False, context=None)>
常用参数
url
:目标资源在网络中的位置。【URL字符串,Request对象】data
:data用来指明发往服务器请求中的额外的参数信息(如:在线翻译,在线答题等提交的内容),data默认是None,此时以GET方式发送请求;当用户给出data参数的时候,改为POST方式发送请求。timeout
:访问超时时间
1.2.2 timeout
from urllib import request
from urllib import error
import socket
try:
response=request.urlopen('http://www.baidu.com',timeout=0.00001)
except error.URLError as e:
if