爬虫
王伟帆csdn
这个作者很懒,什么都没留下…
展开
-
爬取Google patent上公司所有专利
@[TOC]爬取Google patent上公司所有专利需求:给出了需要爬取的公司列表,形式如下:[‘DURATA THERAPEUTICS INC’,‘DYNAVAX TECHNOLOGIES CORP’]要求将公司名输入到google patent的搜索框中,转至的界面里会出现下载的按钮。通过F12可以找到Download的链接:https://patents.google.com...原创 2019-06-14 22:00:55 · 18888 阅读 · 3 评论 -
利用python+selenium+request爬取cortellis上的所有deals记录
爬取Google patent上公司所有专利需求:登陆cortellis账号,按照日期从1980-1-1到2019-1-1爬取所有的deals文档以及deals对应的principle company与partner company的文档,保存至本地。思路:利用selenium模拟浏览器实现登陆后,用Select创建下拉菜单对象,然后按照输入筛选日期,修改日期利用了Selenium执行js的...原创 2019-07-22 17:15:18 · 1690 阅读 · 1 评论 -
利用python+selenium爬取derwent数据库上的patents
利用python+selenium爬取derwent数据库上的patents需求:登陆web of science,并进入derwent数据库,按照公司excel列表依次进行搜索,并将所有搜索道德记录下载至本地指定路径。思路:和爬取cortellis的步骤基本相近,也是利用selenium模拟浏览器,主要涉及的模拟有:下拉菜单、按钮、input框,总体上讲并不复杂。然而需要注意的是,der...原创 2019-08-13 17:51:59 · 1236 阅读 · 0 评论