本文以笔趣阁网站为例,爬取网站上的电子书并存储在本地记事本中。
认为有用的话请点赞,码字不易,谢谢。
其他爬虫实战请查看:https://blog.csdn.net/qq_42754919/category_10354544.html
1.分析主页面
打开网址,F12查看网页源代码,我们发现四部比较火的电子书的节点属性是< hot >,本文主要爬取四部比较火的电子书。
我们从class=item节点提取电子书的地址,源代码给的URL需要加上原始代码。
items = html.xpath(
'//div[@class="wrap"]//div[