爬取静态页面分页内容

最新推荐文章于 2024-04-30 13:19:06 发布

wang1319864062

最新推荐文章于 2024-04-30 13:19:06 发布

阅读量1.3k

点赞数

文章标签：分页爬虫

本文链接：https://blog.csdn.net/wang1319864062/article/details/81460734

版权

静态准备爬取静态页面分页知识,因为写博客现在目的是当笔记一样,当学过知识梳理一遍,如果有观众,不喜勿喷,不足之处可以多多指点
工具:python3.6
操作系统:linux
浏览器:谷歌浏览器

创建项目

1.在虚拟机黑屏终端找个合适位置创建项目:scrapy startproject Qidian
2.进入项目应用:cd Qdian
3.创建爬虫器:scrapy genspider qidian www.qidian.com
4.用pycharm打开项目

分析爬取网页结构

我们用谷歌打开起点小说网,然后右键审查元素,我们因为爬取下一页,所有通过分析地址:https://www.qidian.com/all?&page=1,每一页的网址就是page不一样,所有我们爬取每一页可以用循环的方式去实现:

def start_requests(self):
urls = [‘https://www.qidian.com/all?&page=%s‘%x for x in range(1,1000)]
for url in urls:
req = scrapy.Request(url,self.parse)
yield req
接下来我们要分析每一页页面书名的标签,我们可以用xpath来复制,浏览器自带的功能,但是不建议这样做,浏览器分析的很复杂,还不一定通用.我们通过分析得到//div[@class=’book-mid-info’]/h4/a/text(),然后把要爬取的写进文件中接下来代码如下:
def parse(self, response):
titles = response.xpath(“//div[@class=’book-mid-info’]/h4/a/text()”).extract()
for title in titles:
with open(‘novel.txt’, ‘a+’)as f:
f.write(title)
f.write(“\r\n”)

这里我们爬取的是前1000页,也可以全部爬完.最后在黑屏终端输入scrapy crawl qidian –nolog 接下来就等待就可以了,部分截图如下:因为数据太多
神灵诀
最强江湖系统
大明流贼
植系主宰
乱世逐流
超神学院之六翼天使
红警之战神部队
穿越从主神开始
极品小医神
命运使歌
炒钱高手在花都
火线快递
逆袭之我是灰太狼
山狼
我的超级教师
倾城少女穿越异界
史上最强战斗力系统
六道谭
龙族之血脉隐现
杀机较量
魔兽之艾泽拉斯龙王
穿越之风月
乾坤领主
穿越阴阳师之我为邪派
海贼擎天
黑子的篮球之湘北系统
特战狼王
在火影的人生
绝地求生之一枪命中
苍穹霸体
一拳之目标琦玉

好了,这就完成分页爬虫了

wang1319864062

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬取静态页面分页内容

静态准备爬取静态页面分页知识,因为写博客现在目的是当笔记一样,当学过知识梳理一遍,如果有观众,不喜勿喷,不足之处可以多多指点工具:python3.6 操作系统:linux 浏览器:谷歌浏览器创建项目1.在虚拟机黑屏终端找个合适位置创建项目:scrapy startproject Qidian 2.进入项目应用:cd Qdian 3.创建爬虫器:scrapy genspi...
复制链接

扫一扫