Python Show-Me-the-Code 第 0013 题抓取妹子图片使用scrapy

最新推荐文章于 2024-03-05 18:15:56 发布

VIP文章 AngryBill

最新推荐文章于 2024-03-05 18:15:56 发布

阅读量3k

点赞数 1

分类专栏： Python 文章标签： python 爬虫 scrapy mongodb 图片抓取

本文链接：https://blog.csdn.net/huangxiongbiao/article/details/45889743

版权

第 0013 题： 用 Python 写一个爬图片的程序，爬这个链接里的日本妹子图片 :-)

参考代码

完整代码

思路：

其实这个可以不用scrapy，就用正则匹配+request应该就可以完成任务了。我想练习下scrapy，于是就用scrapy做这个了。

这个只要求爬一个网页上的图片，所以也不用写什么follow规则，算是比较简单的。通过分析链接里的妹子图片的标签，发现百度贴吧里发的图片是带BDE_Image这个类的，所以就好办了，直接用xpath把所有img标签中带BDE_Image类的全部提出来，就是所需的图片了，把需要的东西放到item里，然后交给pipeline搞定。

我在pipeline中先判断信息是否齐全，然后检测是否已经下载过这图片，如果是的话就跳过，否则把图片下载下来，为了方便，保存图片后，我还把图片信息（名字，存放路径）存放在mongodb中。

步骤：

生成一个叫baidutieba的scrapy项目：scrapy startproject baidutieba
打开项目文件夹：cd baidutieba
生成一个叫meizi的spider：scrapy genspider meizi baidu.com
然后编写相关代码
运行：scrapy crawl meizi

代码：

spider:
meizi.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from baidutieba.items import BaidutiebaItem
from scrapy.selector import Selector
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

class MeiziSpider(CrawlSpider):
    name = "meizi"
    allowed_domains = ["baidu.com

最低0.47元/天解锁文章

AngryBill

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python Show-Me-the-Code 第 0013 题抓取妹子图片使用scrapy

第 0013 题：用 Python 写一个爬图片的程序，爬这个链接里的日本妹子图片 :-)参考代码完整代码思路：其实这个可以不用scrapy，就用正则匹配+request应该就可以完成任务了。我想练习下scrapy，于是就用scrapy做这个了。这个只要求爬一个网页上的图片，所以也不用写什么follow规则，算是比较简单的。通过分析链接里的妹子图片的标签，发现百度贴吧里发的图片是带BDE_
复制链接

扫一扫