【patent_stil-使用Python采集谷歌专利、FPO专利数据库】

极客小云

已于 2024-09-15 13:06:30 修改

阅读量1.6k

点赞数 13

文章标签： python 开发语言 pip scrapy pdf html5 数据库

于 2024-09-14 17:33:47 首次发布

本文链接：https://blog.csdn.net/m0_73370855/article/details/142255897

版权

Python数据分析教程

前言

使用Python的patent_stil采集专利数据，patent_stil是一个专门用于采集谷歌专利、FPO专利的集成数据采集库，patent_stil通过函数式的调用方式实现了专利数据的高效获取。

一、patent_stil是什么？

patent_stil是基于Python 的一种工具包，该工具是为了解决专利数据采集而构建和开发的，由科创实验室组织的成员开发和维护，目前仅发布了0.1.1版本，支持基础专利数据的获取操作。

二、使用步骤

1.安装库

pip install patent-stil -i https://pypi.org/simple

2.使用谷歌专利接口获取专利数据

#导入专利采集库
import patent_stil
#获取指定专利号的所有数据
res=patent_stil.getGooglePatentInfo("CN111587459B",language="auto",proxies="clash")

print("专利标题:",res.title)
print("专利发明者:",res.inventors)
print("专利摘要:",res.abstract)
print("专利正文:",res.descriptions)

国内谷歌网站无法访问，可以使用镜像网址，通过设置base_url参数即可实现，该处使用专利号、申请号获取指定专利号数据。参数1为专利号，参数2为返回的语言类型，参数3为代理参数。运行结果如下所示:

2.获取专利json数据

import patent_stil as patent_stil

#获取指定谷歌专利页面详情数据的json格式
res=patent_stil.getGooglePatentInfoByUrl("https://patents.google.com/patent/CN111587459B/zh?")
print(res)

使用getGooglePatentInfoByUrl()方法传递一个谷歌专利页面的url,即可获取解析的json数据格式。

3.下载专利pdf文件

import patent_stil as patent_stil

res=patent_stil.getGooglePatentInfo("CN111587459B",language="auto",proxies="clash")
print("专利pdf地址:",res.pdf_url)
#根据pdf_url下载对应的专利文件
patent_stil.downloadGooglePdf(res.pdf_url,save_path="./test.pdf")

使用downloadGooglePdf()方法可以下载对应的专利pdf文件到指定目录。

3.自动爬取专利所有数据

import patent_stil as patent_stil

#自动爬取对应的专利数据到默认data目录，并且不爬取pdf文件
patent_stil.autoGoogleSpider("CN111587459B",save_pdf=False)

使用autoGoogleSpider()方法，通过传递指定的专利号下载专利数据到指定目录，默认是在程序运行目录创建一个data目录存放爬取的专利数据。运行结果如下所示:

总结

以上就是今天要讲的内容，本文仅仅简单介绍了patent_stil库的使用，后续patent_stil也会不断更新更多的功能。相关BUG请前往gitee进行反馈。Issues · 科技创新实验室/Python专利采集库 - Gitee.comhttps://gitee.com/hbue_stil/patent_stil/issues