python从入门到放弃篇33（selenium库）实现翻页爬取豆瓣小说，保存为xlsx文件到本地

最新推荐文章于 2024-08-19 11:40:24 发布

不羁_神话

最新推荐文章于 2024-08-19 11:40:24 发布

阅读量1.6k

点赞数 5

分类专栏： python爬虫文章标签： python selenium

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43408020/article/details/107588305

版权

python爬虫专栏收录该内容

28 篇文章 0 订阅

订阅专栏

之前，我做过豆瓣小说爬取的案例，要是有兴趣的同志可以去看我之前写的博文，但是，那个博文中我提到过，爬取的并不完善，而且，用构造法来爬取效果较差，为了省事，现在我用selenium库来再重新爬取豆瓣小说，爬取内容完整，实现翻页爬取也无需重构新的url，案例网址：https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T。

完整代码：
在这里插入图片描述

首先，还是导入我们可能会用到的库，selenium库和time库，如下图：
在这里插入图片描述
接着，先获取第一个的页面信息看看效果，使用get请求，设置浏览器等待时间为3秒，我们观察网页结构，如下图：

我们发现，可以根据标签ul提取整个页面的信息。所以，代码如下图：

不过，这仅仅只是第一个页面的信息，我们要提取全部的信息，我们通过观察发现，它的页数只有50页，start值980结束，所以，我们用for循环构造start值，构造新的url，如下图：
在这里插入图片描述
运行结果：

然后，我们给辛苦的成果留个纪念吧，所以，修改代码，如下图：

我们把它保存为xlsx格式，更利于数据的操作和存储。运行结果，如下图：

打开文件，如下图：

后面还有很多内容就不全部展示了，请大家见谅。

最后，感觉收获蛮大的，因为每天爬虫都会有新的思想，发现新的东西，写新的文章，不管怎么说，感谢大家前来观看鄙人的文章，文中或有诸多不妥之处，还望指出和海涵，若有朋友有疑问，可以私信我，互相交流探讨。

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不羁_神话 感谢支持，欢迎交流。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。