scrapy爬虫-美图录

最新推荐文章于 2020-09-18 14:40:37 发布

fread丶

最新推荐文章于 2020-09-18 14:40:37 发布

阅读量6k

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/qq_29755301/article/details/100075332

版权

爬虫专栏收录该内容

16 篇文章 0 订阅

订阅专栏

最近写了个爬虫练练手，爬取的网站为美图录。这次爬取的是美图录里气质这一个模块，如果想爬取其他模块，可以把url地址自行修改。

403服务器错误

当爬取完数据，获取到图片的链接时，直接请求图片的链接会出现403的错误，提示没有权限。出现这个问题时，首先尝试了用selenium来进行测试，发现直接请求是不可以的。然后之前有了解到不少的网站有referer防盗链的设置，然后也通过网上搜寻相关的资料，在测试的时候把请求头给带上，然后成功获取到信息。
在这里插入图片描述
如图所示403错误。

这是没有添加referer时请求回来的信息。

在添加了referer之后，返回了大量信息，可见请求成功。

爬虫运行假死

在下载图片的过程中，爬虫发生了假死的现象，主要的原因是请求图片的时候没有加入timeout的设置，一直在请求某个图片链接而发生了卡在那里的现象，加入了timeout之后假死超过一定时间就可以重新请求，同时可以设置重新请求的次数。

爬虫部分代码

    def detail_parse(self,response):
        #翻页之后获取item，同一个套图的图片用一个imgs来进行存储，因为需要referer的url所以需要把每个大页面的url进行存储
        item = response.meta["item"]
        try:
            imgs = response.meta["imgs"]
        except:
            imgs = []
        try:
            r_urls = response.meta["r_urls"]
        except:
            r_urls = []
        images = response.xpath("//div[@class='content']/center/img")
        for img in images:
            a = img.xpath("./@src").extract_first()
            imgs.append(a)
        item["image_urls"] = imgs
        urls = response.xpath("//div[@id='pages']/a")
        for url in urls:
            if url.xpath("./text()").extract_first() == "下一页":
                next_url = url.xpath("./@href").extract_first()
        r_urls.append(response.url)
        item["refer_urls"] = r_urls
        #翻页处理，美图录的下一页在最后一页还是存在的，而且最后一页的下一页url与最后一页的url相同，
        这里进行了一个判断，如果爬取到了最后一页就把item交给pipeline进行处理
        if next_url is not None:
            next_url = urllib.parse.urljoin(response.url,next_url)
            if next_url != response.url:
                yield scrapy.Request(
                    next_url,
                    callback=self.detail_parse,
                    meta={"item":item,"imgs":imgs,"r_urls":r_urls}
                )
            else:
                yield item

pipelines的部分代码

在这里插入图片描述
判断部分有点冗长就没贴个图好了

settings的相关设置

#MongoDB的连接
MONGO_URI = 'localhost'
MONGO_DB = 'meitulu'

#redis的连接
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
REDIS_URL = "redis://:root@127.0.0.1:6379"

#爬取的最大页数
MAX_PAGE = 5

#开启pipelines对数据进行处理
ITEM_PIPELINES = {
   'meitulu.pipelines.images_download': 301,
   'meitulu.pipelines.MongoPipeline': 300,

}