最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~
虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代码如下:
环境:Python2.79
1 #coding: utf-8 2 import urllib2 3 import urllib 4 import re 5 import os 6 7 #糗百成人版抓取图片 8 class QBAdult: 9 10 #类初始化 11 def __init__(self): 12 self.baseURL = "http://www.qiubaichengnian.com/" 13 #获取索引页面内容 14 def getPage(self, pageIndex): 15 url = self.baseURL + "index_" + str(pageIndex) + ".html" 16 req_header = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Ch