分步教学-使用Python+scrapy批量下载文章中的图片

好消息:“Python小屋”编程比赛正式开始

推荐图书:

《Python程序设计(第3版)》,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,11月第5次印刷

京东购买链接:https://item.jd.com/12668739.html

天猫、当当均有销售,可以选择自己常用平台搜索“董付国 第3版”找到本书。

配套资源:教学大纲、电子教案、微课视频、PPT课件、例题源码、习题答案、考试系统。

《Python程序设计(第3版)》配套教学大纲

《Python程序设计(第3版)》课后习题答案

=======================

任务描述:

编写Python程序,使用网络爬虫框架scrapy下载文章中超过指定尺寸的图片,按顺序使用数字编号命名下载的图片文件。

0)打开命令提示符窗口,使用pip install scrapy安装扩展库。

1)切换至工作文件夹,执行命令“scrapy startproject PythonXiaowuPicture”创建爬虫项目PythonXiaowuPicture。

2)继续执行命令“cd PythonXiaowuPicture”和“scrapy genspider pictureSpider mp.weixin.qq.com”创建爬虫程序。

3)打开PythonXiaowuPicture/PythonXiaowuPicture/items.py文件,增加代码,定义要采集的内容。

4)打开PythonXiaowuPicture/PythonXiaowuPicture/spiders/pictureSpider.py文件,增加代码,实现爬虫功能。

5)打开PythonXiaowuPicture/PythonXiaowuPicture/pipelines.py文件,增加代码,集成图片下载管道类ImagesPipeline,实现图片下载和命名。

6)打开PythonXiaowuPicture/PythonXiaowuPicture/middlewares.py文件,修改其中PythonxiaowupictureDownloaderMiddleware类的process_request(self, request, spider)方法,增加代码,自定义头部对抗服务器的User-Agent检查和防盗链检查。

7)打开PythonXiaowuPicture/PythonXiaowuPicture/settings.py文件,重点修改下面几处代码,设置不遵守服务器端robots.txt文件定义的规则、启用下载中间件、启用自定义的管道PythonXiaowuSavepicturePipeline、图片文件保存位置以及预期图片的最小尺寸。

8)至此,爬虫项目全部完成。切换到命令提示符环境,确保当前处于爬虫项目文件夹中,执行命令“scrapy crawl pictureSpider”运行爬虫项目。观察运行过程中的提示信息,如果遇到错误,检查前面的步骤是否有遗漏或代码是否有抄写错误,修改后重新运行,直至运行成功,程序自动在爬虫项目文件夹中创建子文件夹image并把下载的图片文件保存到image子文件夹中,每个图片以数字编号命名。

温馨提示:

关注微信公众号“Python小屋”,在公众号后台发送消息“大事记”可以查看董付国老师与Python有关的重要事件;发送消息“教材”可以查看董付国老师出版的Python系列教材(已累计印刷超过100次)的适用专业详情;发送消息“历史文章”可以查看董付国老师推送的超过1000篇原创技术文章;发送消息“会议”或“培训”可以查看近期董付国老师的培训安排;发送消息“微课”可以查看董付国老师免费分享的超过500节Python微课视频;发送消息“课件”可以查看董付国老师免费分享的Python教学资源;发送消息“小屋刷题”可以下载“Python小屋刷题神器”,免费练习1235道客观题和140道编程题,题库持续更新;发送消息“编程比赛”了解Python小屋编程大赛详情。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值