上一节中已经说过了理论基础,那么现在就来实践一个,要爬取一个静态网页的所有图片。
这里使用的网页下载器是python自带的urllib2,然后利用正则表达式匹配,输出结果。
以下为源码:
//引入小需要用到的模块
import urllib2
import re
def main():
//利用urllib2的urlopen方法,下载当前url的网页内容
req = urllib2.urlopen('http://www.imooc.com/course/list')
//将网页内容存储到buf变量中
buf = req.read()
//将buf中的所有内容与需要匹配的url进行比对。这里的正则表达式是根据静态网页的源码得出的,查看静态网页源码开启开发者模式,按F12即可。然后确定图片块,查看对应源码内容,找出规律,编写正则表达式。
listurl = re.findall(r'src=.+\.jpg',buf)
i = 0
//将结果循环写入文件