![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
selenium
文章平均质量分 75
andux
这个作者很懒,什么都没留下…
展开
-
使用selenium自动从知网cnki.net下载pdf文献
通过for循环,获取a标签的属性href链接,然后再使用driver.get()进入到文章页面,暂停5秒钟等文章页面加载完成后,点击pdf按钮,自动下载文章的pdf文件。要想自动下载知网期刊论文,先要在chrome浏览器里登录好帐号密码。注意自己的网速,设置好暂停的秒数后,再往下执行。跳转到搜索结果页面后,需要暂停个5秒,等页面加载完,才能使用xpath查找到相应的dom元素,因为列表都是使用异步加载到相应的模块里面的。就可以循环该a标签的dom元素列表,遍历到所有的文章链接了。原创 2023-10-24 11:02:12 · 208 阅读 · 0 评论 -
使用selenium爬取飞卢小说网排行榜的小说标题
使用selenium集成化爬虫工具,它的xpath跟scrapy等有一定区别,scrapy等需要使用get()或者extract()等函数来获取dom节点,而selenium就不需要了。飞卢小说网的排行榜中,每个小说块的class都是一样的,这样获取整页的div块的xpath就很好写了。把爬取代码放到try里面,是为了出错时程序不会中断,继续执行下去。一个点(.)是指当前子目录中,没有点的话,就是直接从根目录开始了。原创 2023-10-24 10:08:25 · 219 阅读 · 0 评论 -
爬虫通过验证码框架selenium的简单使用
Selenium() 是支持 web 浏览器自动化的一系列工具和库的综合项目。它提供了扩展来模拟用户与浏览器的交互,用于扩展浏览器分配的分发服务器, 以及用于实现的基础结构, 该 规范 允许您为所有主要 Web 浏览器编写可互换的代码。爬虫要通过验证码,需要使用selenium这样的框架,模拟人的操作,来通过验证码,或者说是破解验证码。原创 2023-10-24 09:27:48 · 56 阅读 · 0 评论