一、最简单的爬虫:
思路:
1,网页生成页面请求对象,以获取页面信息
2,通过页面信息,获取图片地址
3,通过地址,下载图片
代码步骤:
#由于本程序用到url相关模块和正则表达式,导入
import urllib
import re
#定义获取页面请求的方法
def getHtml(url):
response = urllib.urlopen(url)
html = response.read()
return html
#定义获取图片的方法
def getImg(html):
#设置匹配图片地址的正则表达式
regImg = re.compile(r'src="(.*?\.jpg)"')
#获取匹配后的页面地址
imgList = re.findall(regImg, html)
#通过地址下载图片,并命名
x=0
for imgUrl in imgList:
urllib.urlretrieve(imgUrl, '%s.jpg'%x)
x+=1
#由于图片较多,我们设置下载上限为30张图片
if x==30:
break
#以易车网主页为例,将url地址传入
url='http://nanchang.bitauto.com/?referrer=https://www.baidu.com/link?url=TCwrGsiocv4MY_SQzfnmtYypdBVTdAyOJbo_4AC1QJyH5ce5mA30vOyrLD7JrHMl&wd=&eqid=c11b11030002707a0000000358008bbb'
#获取页面的html文件
html = getHtml(url)
#调用下载器
getImage(html)