Python爬虫用Selenium抓取js生成的文件(一)

最新推荐文章于 2024-05-17 22:16:17 发布

He_MM

最新推荐文章于 2024-05-17 22:16:17 发布

阅读量5.2k

点赞数

分类专栏： Python 文章标签： python selenium javascript html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/He_MM/article/details/53194651

版权

本文介绍了如何使用Python的Selenium库抓取看云网站中由JavaScript生成的电子书链接。首先，解析首页获取最大页码，然后逐页抓取书籍链接，进入书籍详情页判断是否可下载并下载所有格式。通过Chrome浏览器驱动模拟用户操作，通过XPath定位元素进行点击。文章还提到了在爬取过程中可能遇到的问题及解决方案。

摘要由CSDN通过智能技术生成

简介

我最近在看关于计算机的一些书籍,发现了这个电子书清单:计算机开放电子书汇总, 和大家分享一下. 我在下载其中的书籍时被导向了这个很好的计算机电子书网站KanCloud看云,里面有非常多的实用的编程方面的电子书,很多是该网站自己用html生成的,格式多样,包括pdf,epub,mobi. 在此表示感谢,强烈推荐.

于是,我准备用之前的静态网页爬虫来批量下载,发现书籍的链接是javascript生成的,而且难以解析(我还会写一篇抓取可以解析js的网站的博客). 这时我们可以用selenium来模拟浏览器的动作,例如下拉或者点击button之类的. 然后在看云网站里模拟下载.

要得到一个可以稳健运行的爬虫, 需要考虑一些细节问题, 因此分两篇来说,本篇先给出一个示例,了解工作的过程.

任务简述

进入网站后,看云网站界面如下图所示:

要下载全部电子书,我们需要抓取70个page, 每个page有12本书,每本书有一个单独的页面,而且有的书籍不提供下载,有的可以下载多种格式.

不能下载

可以下载

因此, 我们的任务如下:
1. 解析首页,得到最大页码
2. 解析单个页面,得到该页书籍链接列表
3. 进入书籍页

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。