Python数据分析教程
前言
使用Python的patent_stil采集专利数据,patent_stil是一个专门用于采集谷歌专利、FPO专利的集成数据采集库,patent_stil通过函数式的调用方式实现了专利数据的高效获取。
一、patent_stil是什么?
patent_stil是基于Python 的一种工具包,该工具是为了解决专利数据采集而构建和开发的,由科创实验室组织的成员开发和维护,目前仅发布了0.1.1版本,支持基础专利数据的获取操作。
二、使用步骤
1.安装库
pip install patent-stil -i https://pypi.org/simple
2.使用谷歌专利接口获取专利数据
#导入专利采集库
import patent_stil
#获取指定专利号的所有数据
res=patent_stil.getGooglePatentInfo("CN111587459B",language="auto",proxies="clash")
print("专利标题:",res.title)
print("专利发明者:",res.inventors)
print("专利摘要:",res.abstract)
print("专利正文:",res.descriptions)
国内谷歌网站无法访问,可以使用镜像网址,通过设置base_url参数即可实现,该处使用专利号、申请号获取指定专利号数据。参数1为专利号,参数2为返回的语言类型,参数3为代理参数。运行结果如下所示:
2.获取专利json数据
import patent_stil as patent_stil
#获取指定谷歌专利页面详情数据的json格式
res=patent_stil.getGooglePatentInfoByUrl("https://patents.google.com/patent/CN111587459B/zh?")
print(res)
使用getGooglePatentInfoByUrl()方法传递一个谷歌专利页面的url,即可获取解析的json数据格式。
3.下载专利pdf文件
import patent_stil as patent_stil
res=patent_stil.getGooglePatentInfo("CN111587459B",language="auto",proxies="clash")
print("专利pdf地址:",res.pdf_url)
#根据pdf_url下载对应的专利文件
patent_stil.downloadGooglePdf(res.pdf_url,save_path="./test.pdf")
使用downloadGooglePdf()方法可以下载对应的专利pdf文件到指定目录。
3.自动爬取专利所有数据
import patent_stil as patent_stil
#自动爬取对应的专利数据到默认data目录,并且不爬取pdf文件
patent_stil.autoGoogleSpider("CN111587459B",save_pdf=False)
使用autoGoogleSpider()方法,通过传递指定的专利号下载专利数据到指定目录,默认是在程序运行目录创建一个data目录存放爬取的专利数据。运行结果如下所示:
总结
以上就是今天要讲的内容,本文仅仅简单介绍了patent_stil库的使用,后续patent_stil也会不断更新更多的功能。相关BUG请前往gitee进行反馈。Issues · 科技创新实验室/Python专利采集库 - Gitee.comhttps://gitee.com/hbue_stil/patent_stil/issues