Python Show-Me-the-Code 第 0013 题 抓取妹子图片 使用scrapy

第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-)


完整代码

思路:

其实这个可以不用scrapy,就用正则匹配+request应该就可以完成任务了。我想练习下scrapy,于是就用scrapy做这个了。

这个只要求爬一个网页上的图片,所以也不用写什么follow规则,算是比较简单的。通过分析链接里的妹子图片 的标签,发现百度贴吧里发的图片是带BDE_Image这个类的,所以就好办了,直接用xpath把所有img标签中带BDE_Image类的全部提出来,就是所需的图片了,把需要的东西放到item里,然后交给pipeline搞定。

我在pipeline中先判断信息是否齐全,然后检测是否已经下载过这图片,如果是的话就跳过,否则把图片下载下来,为了方便,保存图片后,我还把图片信息(名字,存放路径)存放在mongodb中。

步骤:

生成一个叫baidutieba的scrapy项目:scrapy startproject baidutieba
打开项目文件夹:cd baidutieba
生成一个叫meizi的spider:scrapy genspider meizi baidu.com
然后编写相关代码
运行:scrapy crawl meizi

代码:

spider:
meizi.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from baidutieba.items import BaidutiebaItem
from scrapy.selector import Selector
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

class MeiziSpider(CrawlSpider):
    name = "meizi"
    allowed_domains = ["baidu.com
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值