Python Scrapy图片爬取原理及代码实例

最新推荐文章于 2024-07-05 10:23:36 发布

liming89

最新推荐文章于 2024-07-05 10:23:36 发布

阅读量718

点赞数 1

文章来源：https://www.piaodoo.com/

本文链接：https://blog.csdn.net/liming89/article/details/106804137

版权

Python Scrapy图片爬取原理及代码实例

更多python视频教程请到菜鸟教程https://www.piaodoo.com/

1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道

在管道文件对图片进行下载和持久化存储

class ImgSpider(scrapy.Spider):
  name = 'img'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://www.521609.com/daxuemeinv/']
  url = 'http://www.521609.com/daxuemeinv/list8%d.html'
  pageNum = 1
  def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
      img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
      item = ImgproItem()
      item['src'] = img_src
  yield item</pre>

2.配置文件修改

配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径

3.管道类的修改

原本管道类继承的object，处理item对象使用时process_item方法，该方法不能发送请求，要想对图片地址发送请求，需要继承ImagesPipeline类，然后重写该类中的三个方法:get_media_requests，file_path，item_completed

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class ImgproPipeline(ImagesPipeline):

#对某一个媒体资源进行请求发送
#item就是接收到的spider提交过来的item
def get_media_requests(self, item, info):
yield scrapy.Request(item[‘src’])

#制定媒体数据存储的名称
def file_path(self, request, response=None, info=None):
name = request.url.split(’/’)[-1]
print(‘正在下载：’,name)
return name

#将item传递给下一个即将给执行的管道类
def item_completed(self, results, item, info):
return item

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多

茂名论坛https://www.hnthzk.com/

化州橘红http://www.sfkyty.com/

茂名论坛http://www.nrso.net/

源码搜藏网http://www.cntkd.net/

liming89

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python Scrapy图片爬取原理及代码实例

Python Scrapy图片爬取原理及代码实例更多python视频教程请到菜鸟教程https://www.piaodoo.com/ 1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道在管道文件对图片进行下载和持久化存储class ImgSpider(scrapy.Spider): name = 'img' # allowed_domains = ['www.xxx.com'] start_urls = ['http://www.521609.com/daxueme
复制链接

扫一扫