Python爬虫(selenium带你“投机取巧”)

本文介绍了使用selenium解决复杂爬取任务的案例,包括登录验证码、分页抓取和JS异步加载内容的问题。通过selenium模拟浏览器操作,成功完成专利网站的数据抓取,并提供了相关参考资料。
摘要由CSDN通过智能技术生成

最近刚接的任务,帮客户爬一个专利网的信息,具体需求如下:

首先注册账号,用账号密码从首页登录进来后,进入查询界面

这是一个分页显示,例如这个查询结果一共98页,每页有10条数据,每条专利信息点击进去爬取到如下四个字段的内容并写Excel中。

 

爬取难点:

1.登录界面的验证码跟普通验证码不同,难顶!

2.在使用selenium之前,自己用拼接url的方式解决了分页爬取,但是二级页面的url无法获取,因为无法二级页面的url是通过get请求,并夹带token值,本人只在浏览器中找到了cookie,因此无法解决(登录后界面跳转,也未找到调用login方法登录的请求),难顶!࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值