阿里程序员面试难度Python爬虫：用Scrapy框架爬取漫画，面试总结+解答分享

最新推荐文章于 2024-04-23 12:45:14 发布

2401_83621784

最新推荐文章于 2024-04-23 12:45:14 发布

阅读量779

点赞数 8

分类专栏： 2024年程序员学习文章标签：面试 python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83621784/article/details/137417205

版权

本文介绍了使用Scrapy框架爬取漫画的面试过程和技巧，包括如何爬取漫画URL和图片。从起始页抓取漫画列表，利用BeautifulSoup解析HTML，提取漫画URL和下一页链接。同时，分享了如何判断是否为最后一页及如何爬取漫画图片的方法。

摘要由CSDN通过智能技术生成

start_requests方法中主要的执行在这一行代码：请求指定的url，请求完成后调用对应的回调函数self.parse

scrapy.Request(url=url, callback=self.parse)

对于之前的代码其实还有另一种实现方式：

#coding:utf-8 import scrapy class Comics(scrapy.Spider): name = “comics” start_urls = [‘http://www.xeall.com/shenshi’] def parse(self, response): self.log(response.body);

start_urls是框架中提供的属性，为一个包含目标网页url的数组，设置了start_urls的值后，不需要重载start_requests方法，爬虫也会依次爬取start_urls中的地址，并在请求完成后自动调用parse作为回调方法。

不过为了在过程中方便调式其它的回调函数，demo中还是使用了前一种实现方式。

爬取漫画url

从起始网页开始，首先我们要爬取到每一部漫画的url。

当前页漫画列表

起始页为漫画列表的第一页，我们要从当前页中提取出所需信息，动过实现回调parse方法。

在开头导入BeautifulSoup库

from bs4 import BeautifulSoup

请求返回的html源码用来给BeautifulSoup初始化。

def parse(self, response): content = response.body; soup = BeautifulSoup(content, “html5lib”)

初始化指定了html5lib解释器，若没安装这里会报错。BeautifulSoup初始化时若不提供指定解释器，则会自动使用自认为匹配的最佳解释器，这里有个坑，对于目标网页的源码使用默认最佳解释器为lxml，此时解析出的结果会有问题，而导致无法进行接下来的数据提取。所以当发现有时候提取结果又问题时，打印soup看看是否正确。

查看html源码可知，页面中显示漫画列表的部分为类名为listcon的ul标签，通过listcon类能唯一确认对应的标签

2.jpg

提取包含漫画列表的标签

listcon_tag = soup.find(‘ul’, class_=‘listcon’)

上面的find方法意为寻找class为listcon的ul标签，返回的是对应标签的所有内容。

在列表标签中查找所有拥有href属性的a标签，这些a标签即为每部漫画对应的信息。

com_a_list = listcon_tag.find_all(‘a’, attrs={‘href’: True})

然

最低0.47元/天解锁文章

关注

8
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。