python保存图片到指定路径_python 抓取页面数据，并保存图片文本到指定目录文件夹...

最新推荐文章于 2024-03-02 23:34:04 发布

VIP文章 weixin_39648824

最新推荐文章于 2024-03-02 23:34:04 发布

阅读量2.4k

点赞数

文章标签： python保存图片到指定路径

这个爬虫主要利用scrapy+beautifulsoup完成，其中图片保存碰到了一个大坑，花了一天的时间才解决。

大坑就是：在抓取文章页指定区域所有图片的时候，刚好那块区域的图片所有页面都一样，导致图片下载完第一个页面的时候，其他页面就不会再去下载了。所以其他文件夹里没有图片数据。一开始以为代码写错了，最后换了个地址才找到原因，ImagesPipeline实现图片下载中同样的图是不会重复下载的！

成功后的效果图如下：

items.py文件代码编写

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class mrle3Item(scrapy.Item):

#定义一个类mrleItem，它继承自scrapy.Item

picurl = scrapy.Field()

title = scrapy.Field()

wenzi = scrapy.Field()

link = scrapy.Field()

video = scrapy.Field()

urls = scrapy.Field()

setting.py 代码编写

# -*- coding: utf-8 -*-

# Scrapy settings for mrle project

#

# For simplicity, this file contains only settings considered important or

# commonly used. You can find more settings consulting the documentation:

#

# https://docs.scrapy.org/en/latest/topics/settings.html

# https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

# https://docs.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'mrle3'

SPIDER_MODULES = ['mrle3.spiders']

NEWSPIDER_MODULE = 'mrle3.spiders'

#存储路径决定文件存储在哪个文件夹下面

IMAGES_STORE = 'data'

# 定义接受图片的变量

IMAGES_URLS_FIELD = 'urls'

# Crawl responsibly by identifying yourself (and your website) on the user-agent

DEFAULT_REQUEST_HEADERS = {

# 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

# 'Accept-Language': 'en',

'User-agent': 'Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko)

最低0.47元/天解锁文章

weixin_39648824

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python保存图片到指定路径_python 抓取页面数据，并保存图片文本到指定目录文件夹...

这个爬虫主要利用scrapy+beautifulsoup完成，其中图片保存碰到了一个大坑，花了一天的时间才解决。大坑就是：在抓取文章页指定区域所有图片的时候，刚好那块区域的图片所有页面都一样，导致图片下载完第一个页面的时候，其他页面就不会再去下载了。所以其他文件夹里没有图片数据。一开始以为代码写错了，最后换了个地址才找到原因，ImagesPipeline实现图片下载中同样的图是不会重复下载的！成...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。