一:urllib基础
要系统的学习urllib模块,就要从基础开始,下面会为大家实战讲解urlretrieve()、urlcleanup()、info()、getcode()、geturl()等。
二:实战讲解
1:urlretrieve()的应用,可以将网站网址直接爬取到本地中
格式: request.urlretrieve(url,filename) url为 要爬取的网站的地址,filename为本地的名。
此时打开文件
打开015y.html这个文件.
2:urlcleanup()的应用,可以将urlretrieve()中的缓存清理掉:
3:info() 可以将当前的基本环境信息显示出来:
4:getcode()获取当前的网页的状态码,geturl()获取当前的网页的网址。
200状态码表示网页正常,403表示不正常。
三。综上所述,所有代码为:
>>> from urllib import request
>>> request.urlretrieve("http://www.hellobi.com",filename="G:/BaiduDownload/python网络爬虫/WODE/015y.html")
>>> request.urlcleanup()
>>> request.urlopen("http://www.hellobi.com")
>>> file=request.urlopen("http://www.hellobi.com")
>>> file.info()
>>> file.getcode()
>>> file.geturl()