Python之Scrapy爬虫实战--爬取妹子图

1、前言

反正闲着也是闲着,不如来学习啊!

2、关键代码

新建项目

不会的同学可参考我的另一篇博文,这里不再赘述:Python之Scrapy爬虫实战–新建scrapy项目

这里只讲一下几个关键点,完整代码在文末。

由于爬取的网站有反爬,一开始没绕过反爬,很快就被封了ip,
然后就在代码里加了些反反爬措施。

设置随机UA

在middlewares.py中自定义Middleware

class RandomUserAgentMiddleware(object):
    def process_request(self, request, spider):
        request.headers.setdefault("User-Agent", UserAgent().random)

settings.py

DOWNLOADER_MIDDLEWARES = {
   'scrapy_test.middlewares.RandomUserAgentMiddleware': 543,
}

设置代理ip

这里大家可参考我的另一篇博文:Python之Scrapy爬虫实战–绕过网站的反爬

使用ImagesPipeline下载图片

pipelines.py

class MzituImgDownloadPipeline(ImagesPipeline):

    def get_media_requests(self, item, info):
        default_headers = {
            'referer': 'https://www.mzitu.com/',
        }
        yield Request(item['image_urls'], headers=default_headers, meta={"item_category": item['category'],
                                                                         "item_url": item['image_urls']})

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        return item

然后到settings.py中启用MzituImgDownloadPipeline

ITEM_PIPELINES = {
   'scrapy_test.pipelines.MzituImgDownloadPipeline': 300,
}

顺便设置下图片存储路径

#下载图片存储位置
IMAGES_STORE = 'F:\\mzitu'

实现快速分类存储图片

关于如何实现分类存储,一开始在网上找了一下,感觉都8太行?
通过阅读源码,发现重写file_path方法就可以快速实现图片的分类存储,这样爬取不同主题下的图片就会存放在不同文件夹了。

pipelines.py

def file_path(self, request, response=None, info=None):
        category = request.meta['item_category']
        image_guid = request.meta['item_url'].split('/')[-1]
        return '%s/%s' % (category, image_guid)

3、效果图

爬取的图片都是正经图哈!
效果图

4、结尾

此项目只做学习交流使用,欢迎大家留言讨论!
完整的代码都放在GitHub了,感兴趣的朋友可以看看,帮忙star一下呗,感谢⊙∀⊙!

https://github.com/chenmg2020/scrapy_mzitu

欢迎大家PR

  • 8
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值