【Python爬虫】爬取企业专利信息

本来是个美好的周末的,但是周五晚上领导给了一个公司名称的Excel,让把这些公司的专利信息爬取下来。本文记录了爬取企业专利信息的心酸过程。码字不易,喜欢请点赞!!!
在这里插入图片描述

一、找寻目标网页

在接到这个任务之后,我的内心是拒绝的。但是又不能不干。因此首先我需要先找到有公司专利信息的地方。在一番查找和问了问朋友之后,我知道中国专利网国家知识产权网Incopat天眼查企查查这些网站上面都有企业的专利信息。

  1. 中国专利网国家知识产权局
    首先我看了下这两个网站,国家知识产权网页面如下,网页可以根据公司名称来搜索专利,并且还有个好处就是可以使用关键字 O R OR OR连接公司名称,从而一次查询多个公司的专利信息。
    在这里插入图片描述
    但是我还是放弃了这两个网址,是因为加载速度比较慢,如下图,点击查询或者下一页速度很慢(可能是我这边网速或者啥别的原因)。大家可以先试一下自己那边加载这个网址的速度,如果速度还行的话,建议直接在这个网页上爬取。
    在这里插入图片描述

2.Incopat
Incopat网页如下,这个网页的话需要登录才能使用,当然你也可以申请试用,申请之后工作人员会联系,也比较慢。但是会有学校买过了这些数据库,比如17年大连理工买了这个数据库,当时我需要数据时候直接让大工的朋友帮忙下载的,速度很快,而且可以直接导出。
在这里插入图片描述
所以大家可以看看有没有哪些高校或者机构买了这个数据库,然后找一下在里面的朋友帮忙下载,速度非常快,操作十分简单。

3.天眼查企查查
我找了一下,没找到买了Incopat的数据库的朋友。所以只好自己爬了,因为之前爬过天眼查的很多数据,所以首先看了 天眼查。
【Python爬虫】模拟登陆天眼查网站
【Python】爬取天眼查公司电话以及地址信息
在这里插入图片描述
其实18年年初爬过天眼查专利信息,但是因为电脑坏了,忘记备份代码了,所以没了,很扎心!!!然后这次首先看了下天眼查专利这部分的爬虫,发现反爬做的太好了。所以选择了反差比他差一点点的企查查,企查查专利页面如下。
在这里插入图片描述

二、开始爬虫

1. 获取公司的ID
天眼查和企查查的整个网页结构是一样的,一般根据公司名称爬取企业信息,都是先获取公司的ID,然后根据公司ID进入到包含企业各项指标信息的页面。这里以华为公司为例,上面标签a的href属性值中KaTeX parse error: Expected group after '_' at position 6: /frim_̲后的一串字母数字组合就是这个公司的ID。
在这里插入图片描述

  • 23
    点赞
  • 118
    收藏
    觉得还不错? 一键收藏
  • 29
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 29
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值