Python3中-爬虫库Urllib
概述
- 问:Urllib能做什么?
答:常用在爬虫开发、API(应用程序编程接口)数据获取、测试; - 问:Urllib需要安装吗?
答:Python自带的标准库,直接引用(import)即可; - 问: Urllib、Urllib2和Urllib3区别?
答:①在Python2中分为Urllib和Urllib2,Urllib2可以接收一个Request对象(可设置一个URL的请求头[Headers]),而Urllib只接收一个URL,不能伪装用户代理字符串等。Urllib模块可以提供进行Urlencode的方法,该方法用于GET查询字符串的生成,而Urllib2不具有这样的功能。所以Urllib与Urllib2经常在一起使用。
②在Python 3中,将Urllib和Urllib2合并在一起使用,并且命名为Urllib,可以处理URL的组件集合。
③Urllib3
从网上找到的介绍是这样的:
Urllib3功能非常强大,但是用起来却十分简单:
示例:
urllib3的安装方法如下:
后续再单独学习研究一下这个urllib3吧,本次我们还是以python3的Urllib库为核心; - Urllib里的模块常使用的模块如下表:
模块 | 简述 |
---|---|
urllib.request | 用于打开和读取URL |
urllib.error | 包含提出的例外urllib.request |
urllib.parse | 用于解析URL |
urllib.robotparser | 用于解析robots.txt文件 |