Python3+Session爬重点产业专利信息(仅作学习使用)
因为项目需要爬取**重点产业专利信息网上的信息,爬了四天,各种动态加载,以及登录失效,遇到了很多坑,在此记录。
分析网站
网站存在多个嵌套frame,这都不是问题,直接抓包分析实际包含信息的页面的URL。
数据都是采用js加载,分析js代码。
必须跳过的坑
保持登录一直有效
获取查询结果页面的链接
显示并爬取查询结果的所有选项
获取下一页链接
代码完善
循环爬取所有产...
原创
2018-06-09 16:46:11 ·
2510 阅读 ·
14 评论