环境
- Win7+Python2.7
- urllib+urllib2
[!] urllib模块和urllib2模块的区别
urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。
urllib提供urlencode方法用来GET查询字符串的产生,而urllib2没有。
工作流程
定位需要爬取的页面,糗事百科首页https://www.qiushibaike.com/
用urllib2的Request类构建一个request
url = "https://www.qiushibaike.com/"
request = urllib2.Request(url)
接下来用urllib2的urlopen方法来请求页面,并获取响应(即页面内容)
response = urllib2.urlopen(request)
打印获取到的内容
print response.read()
运行我们的脚本,结果报错了:
Traceback (most recent call last):
File "00_get_a_page.py",