【Python爬虫】爬取企业专利信息

最新推荐文章于 2024-10-31 18:22:16 发布

Asher117

最新推荐文章于 2024-10-31 18:22:16 发布

阅读量2.3w

点赞数 24

分类专栏：爬虫文章标签：企业公司专利爬虫 Python

本文链接：https://blog.csdn.net/Asher117/article/details/97951988

版权

本来是个美好的周末的，但是周五晚上领导给了一个公司名称的Excel，让把这些公司的专利信息爬取下来。本文记录了爬取企业专利信息的心酸过程。码字不易，喜欢请点赞！！！
在这里插入图片描述

一、找寻目标网页

在接到这个任务之后，我的内心是拒绝的。但是又不能不干。因此首先我需要先找到有公司专利信息的地方。在一番查找和问了问朋友之后，我知道中国专利网、国家知识产权网、Incopat、天眼查、企查查这些网站上面都有企业的专利信息。

中国专利网 和 国家知识产权局
首先我看了下这两个网站，国家知识产权网页面如下，网页可以根据公司名称来搜索专利，并且还有个好处就是可以使用关键字 $O R$ 连接公司名称，从而一次查询多个公司的专利信息。

但是我还是放弃了这两个网址，是因为加载速度比较慢，如下图，点击查询或者下一页速度很慢(可能是我这边网速或者啥别的原因)。大家可以先试一下自己那边加载这个网址的速度，如果速度还行的话，建议直接在这个网页上爬取。

2.Incopat
Incopat网页如下，这个网页的话需要登录才能使用，当然你也可以申请试用，申请之后工作人员会联系，也比较慢。但是会有学校买过了这些数据库，比如17年大连理工买了这个数据库，当时我需要数据时候直接让大工的朋友帮忙下载的，速度很快，而且可以直接导出。
在这里插入图片描述
所以大家可以看看有没有哪些高校或者机构买了这个数据库，然后找一下在里面的朋友帮忙下载，速度非常快，操作十分简单。

3.天眼查和企查查
我找了一下，没找到买了Incopat的数据库的朋友。所以只好自己爬了，因为之前爬过天眼查的很多数据，所以首先看了天眼查。
【Python爬虫】模拟登陆天眼查网站
 【Python】爬取天眼查公司电话以及地址信息
在这里插入图片描述
其实18年年初爬过天眼查专利信息，但是因为电脑坏了，忘记备份代码了，所以没了，很扎心！！！然后这次首先看了下天眼查专利这部分的爬虫，发现反爬做的太好了。所以选择了反差比他差一点点的企查查，企查查专利页面如下。
在这里插入图片描述

二、开始爬虫

1. 获取公司的ID
天眼查和企查查的整个网页结构是一样的，一般根据公司名称爬取企业信息，都是先获取公司的ID，然后根据公司ID进入到包含企业各项指标信息的页面。这里以华为公司为例，上面标签a的href属性值中 $KaTeX parse error: Expected group after '_' at position 6: /frim_̲$ 后的一串字母数字组合就是这个公司的ID。
在这里插入图片描述
2.进入公司信息主页面
然后根据刚刚得到的公司ID(保存这个ID，后面爬取企业专利信息还需要)可以进入包含华为的内容的主页面，可以看到网址由公司ID加其他固定信息组成。