2021SC@SDUSC
目录
一、摘要
本篇博客将开始对四个项目中的最后一个项目进行分析。该项目是“SIPO专利审查”,我将在本篇博客介绍该项目的一些概览并且找出该文件的核心代码部分。
二、项目介绍
1.爬虫对象
本项目爬虫的对象网站是中国及多国专利审查信息查询网站(http://cpquery.cnipa.gov.cn/)
该网站是登录后可以根据申请号/专利号、发明名称、申请人、专利类型、起始截止申请日信息来查询一个专利的相关审查信息。
例如:要对申请号/专利号为2010800108092的进行查询,则可以看到查询结果为:
这里面就是对应该专利号的相关信息,点击专利号可以查看到更详细的信息(包括申请信息,审查信息,费用信息,发文信息等)
2.爬虫目的
爬虫的目的是根据给定的一个待查账号的csv文件,里面存放的都是待查的专利号id,将这些查询的结果显示在浏览器上,实现一个自动化的专利审查结果查询的功能。
例如:待查账号.csv
界面如下:
3.核心代码文件
该项目的文件部分很少,只有三个.py文件。
“app.py”文件对应的是具体的网站爬取过程,也就是需要分析的项目核心代码部分。
“fateadm_api.py”文件对应的是一些api接口调用类,具体包括查询金额、查询网络延迟、识别验证码、 从文件进行验证码识别、识别失败进行退款请求、充值接口、查询余额等方法,这些并不属于需要分析的核心代码部分。
“myui.py”文件是对应可视化ui的部分,故也不属于核心代码。
三、总结
通过对本项目的过程和代码进行概览分析之后,确定了本项目的核心代码部分为“app.py”的内容,我将在下一篇博客对该核心代码进行分析。