urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。
二.由易到难的爬虫程序:
1.爬取百度首页面所有数据值
1 #!/usr/bin/env python
2 # -*- coding:utf-8 -*-
3 #导包
4 import urllib.request
5 import urllib.parse
6 if __name__ == "__main__":
7 #指定爬取的网页url
8 url = 'http://www.baidu.com/'
9 #通过urlopen函数向指定的url发起请求,返回响应对象
10 reponse = urllib.request.urlopen(url=url)
11 #通过调用响应对象中的read函数,返回响应回客户端的数据值(爬取到的数据)
12 data = reponse.read()#返回的数据为byte类型,并非字符串
13 print(data)#打印显示爬取到的数据值。
#补充说明
urlopen函数原型:urllib.request.urlopen(url, data=None, timeout=, *, cafile=None, capath=None, cadefault=False, context=None)
在上述案例中我们只使用了该函数中的第一个参数url。在日常开发中,我们能用的