最近刚接的任务,帮客户爬一个专利网的信息,具体需求如下:
首先注册账号,用账号密码从首页登录进来后,进入查询界面
这是一个分页显示,例如这个查询结果一共98页,每页有10条数据,每条专利信息点击进去爬取到如下四个字段的内容并写Excel中。
爬取难点:
1.登录界面的验证码跟普通验证码不同,难顶!
2.在使用selenium之前,自己用拼接url的方式解决了分页爬取,但是二级页面的url无法获取,因为无法二级页面的url是通过get请求,并夹带token值,本人只在浏览器中找到了cookie,因此无法解决(登录后界面跳转,也未找到调用login方法登录的请求),难顶!