scrapy实践一（CrawlSpider爬取图片并存储）

最新推荐文章于 2024-07-19 15:44:38 发布

丹尼尔•卡尼�

最新推荐文章于 2024-07-19 15:44:38 发布

阅读量483

点赞数 1

分类专栏： scrapy 文章标签： xpath 爬虫

本文链接：https://blog.csdn.net/qq_51598376/article/details/113824805

版权

前言

为公众号收集电影图片素材

使用scrapy图片下载

目标网站
https://film-grab.com/
在这里插入图片描述

爬取成果
在这里插入图片描述
因为已经有了一次爬取成功的基础，再加上这个网站结构跟上个例子差不多，所以很快就达到了目的。
有多快呢
十分钟不到

代码参考
settings.py(已删除多余部分)

BOT_NAME = 'pictures'
SPIDER_MODULES = ['pictures.spiders']
NEWSPIDER_MODULE = 'pictures.spiders'
ROBOTSTXT_OBEY = False
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

丹尼尔•卡尼�

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy实践一（CrawlSpider爬取图片并存储）

前言为公众号收集电影图片素材使用scrapy图片下载目标网站https://film-grab.com/爬取成果因为已经有了一次爬取成功的基础，再加上这个网站结构跟上个例子差不多，所以很快就达到了目的。有多快呢十分钟不到代码参考settings.py(已删除多余部分)BOT_NAME = 'pictures'SPIDER_MODULES = ['pictures.spiders']NEWSPIDER_MODULE = 'pictures.spiders'ROBOTSTXT_O
复制链接

扫一扫