【patent_stil-使用Python采集谷歌专利、FPO专利数据库】

Python数据分析教程


前言

        使用Python的patent_stil采集专利数据,patent_stil是一个专门用于采集谷歌专利、FPO专利的集成数据采集库,patent_stil通过函数式的调用方式实现了专利数据的高效获取。

一、patent_stil是什么?

        patent_stil是基于Python 的一种工具包,该工具是为了解决专利数据采集而构建和开发的,由科创实验室组织的成员开发和维护,目前仅发布了0.1.1版本,支持基础专利数据的获取操作。

二、使用步骤

1.安装库

pip install patent-stil -i https://pypi.org/simple

2.使用谷歌专利接口获取专利数据

#导入专利采集库
import patent_stil
#获取指定专利号的所有数据
res=patent_stil.getGooglePatentInfo("CN111587459B",language="auto",proxies="clash")

print("专利标题:",res.title)
print("专利发明者:",res.inventors)
print("专利摘要:",res.abstract)
print("专利正文:",res.descriptions)

        国内谷歌网站无法访问,可以使用镜像网址,通过设置base_url参数即可实现,该处使用专利号、申请号获取指定专利号数据。参数1为专利号,参数2为返回的语言类型,参数3为代理参数。运行结果如下所示:

d46cee60b6604077b605974c0b12fabc.png

2.获取专利json数据

import patent_stil as patent_stil

#获取指定谷歌专利页面详情数据的json格式
res=patent_stil.getGooglePatentInfoByUrl("https://patents.google.com/patent/CN111587459B/zh?")
print(res)

        使用getGooglePatentInfoByUrl()方法传递一个谷歌专利页面的url,即可获取解析的json数据格式。

3.下载专利pdf文件

import patent_stil as patent_stil

res=patent_stil.getGooglePatentInfo("CN111587459B",language="auto",proxies="clash")
print("专利pdf地址:",res.pdf_url)
#根据pdf_url下载对应的专利文件
patent_stil.downloadGooglePdf(res.pdf_url,save_path="./test.pdf")

        使用downloadGooglePdf()方法可以下载对应的专利pdf文件到指定目录。

3.自动爬取专利所有数据

import patent_stil as patent_stil

#自动爬取对应的专利数据到默认data目录,并且不爬取pdf文件
patent_stil.autoGoogleSpider("CN111587459B",save_pdf=False)

        使用autoGoogleSpider()方法,通过传递指定的专利号下载专利数据到指定目录,默认是在程序运行目录创建一个data目录存放爬取的专利数据。运行结果如下所示:

7d2317feb2d3401e8ebb0ae4e912ebc0.png


总结

        以上就是今天要讲的内容,本文仅仅简单介绍了patent_stil库的使用,后续patent_stil也会不断更新更多的功能。相关BUG请前往gitee进行反馈。Issues · 科技创新实验室/Python专利采集库 - Gitee.comicon-default.png?t=O83Ahttps://gitee.com/hbue_stil/patent_stil/issues

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

极客小云

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值