第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-)
思路:
其实这个可以不用scrapy,就用正则匹配+request应该就可以完成任务了。我想练习下scrapy,于是就用scrapy做这个了。
这个只要求爬一个网页上的图片,所以也不用写什么follow规则,算是比较简单的。通过分析链接里的妹子图片 的标签,发现百度贴吧里发的图片是带BDE_Image这个类的,所以就好办了,直接用xpath把所有img标签中带BDE_Image类的全部提出来,就是所需的图片了,把需要的东西放到item里,然后交给pipeline搞定。
我在pipeline中先判断信息是否齐全,然后检测是否已经下载过这图片,如果是的话就跳过,否则把图片下载下来,为了方便,保存图片后,我还把图片信息(名字,存放路径)存放在mongodb中。
步骤:
生成一个叫baidutieba的scrapy项目:scrapy startproject baidutieba
打开项目文件夹:cd baidutieba
生成一个叫meizi的spider:scrapy genspider meizi baidu.com
然后编写相关代码
运行:scrapy crawl meizi
代码:
spider:
meizi.py
# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from baidutieba.items import BaidutiebaItem
from scrapy.selector import Selector
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
class MeiziSpider(CrawlSpider):
name = "meizi"
allowed_domains = ["baidu.com