爬取静态页面分页内容

静态准备爬取静态页面分页知识,因为写博客现在目的是当笔记一样,当学过知识梳理一遍,如果有观众,不喜勿喷,不足之处可以多多指点
工具:python3.6
操作系统:linux
浏览器:谷歌浏览器

创建项目

1.在虚拟机黑屏终端找个合适位置创建项目:scrapy startproject Qidian
2.进入项目应用:cd Qdian
3.创建爬虫器:scrapy genspider qidian www.qidian.com
4.用pycharm打开项目

分析爬取网页结构

我们用谷歌打开起点小说网,然后右键审查元素,我们因为爬取下一页,所有通过分析地址:https://www.qidian.com/all?&page=1,每一页的网址就是page不一样,所有我们爬取每一页可以用循环的方式去实现:

def start_requests(self):
urls = [‘https://www.qidian.com/all?&page=%s‘%x for x in range(1,1000)]
for url in urls:
req = scrapy.Request(url,self.parse)
yield req
接下来我们要分析每一页页面书名的标签,我们可以用xpath来复制,浏览器自带的功能,但是不建议这样做,浏览器分析的很复杂,还不一定通用.我们通过分析得到//div[@class=’book-mid-info’]/h4/a/text(),然后把要爬取的写进文件中接下来代码如下:
def parse(self, response):
titles = response.xpath(“//div[@class=’book-mid-info’]/h4/a/text()”).extract()
for title in titles:
with open(‘novel.txt’, ‘a+’)as f:
f.write(title)
f.write(“\r\n”)

这里我们爬取的是前1000页,也可以全部爬完.最后在黑屏终端输入scrapy crawl qidian –nolog 接下来就等待就可以了,部分截图如下:因为数据太多
神灵诀
最强江湖系统
大明流贼
植系主宰
乱世逐流
超神学院之六翼天使
红警之战神部队
穿越从主神开始
极品小医神
命运使歌
炒钱高手在花都
火线快递
逆袭之我是灰太狼
山狼
我的超级教师
倾城少女穿越异界
史上最强战斗力系统
六道谭
龙族之血脉隐现
杀机较量
魔兽之艾泽拉斯龙王
穿越之风月
乾坤领主
穿越阴阳师之我为邪派
海贼擎天
黑子的篮球之湘北系统
特战狼王
在火影的人生
绝地求生之一枪命中
苍穹霸体
一拳之目标琦玉

好了,这就完成分页爬虫了

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值