山东大学软件工程应用与实践——ECommerceCrawlers代码分析(十三)

2021SC@SDUSC


目录

一、摘要

二、项目介绍

1.爬虫对象

 2.爬虫目的

3.核心代码文件 

三、总结


一、摘要

本篇博客将开始对四个项目中的最后一个项目进行分析。该项目是“SIPO专利审查”,我将在本篇博客介绍该项目的一些概览并且找出该文件的核心代码部分。

二、项目介绍

1.爬虫对象

本项目爬虫的对象网站是中国及多国专利审查信息查询网站(http://cpquery.cnipa.gov.cn/

该网站是登录后可以根据申请号/专利号、发明名称、申请人、专利类型、起始截止申请日信息来查询一个专利的相关审查信息。

 

 例如:要对申请号/专利号为2010800108092的进行查询,则可以看到查询结果为:

 这里面就是对应该专利号的相关信息,点击专利号可以查看到更详细的信息(包括申请信息,审查信息,费用信息,发文信息等)

 2.爬虫目的

 爬虫的目的是根据给定的一个待查账号的csv文件,里面存放的都是待查的专利号id,将这些查询的结果显示在浏览器上,实现一个自动化的专利审查结果查询的功能。

例如:待查账号.csv

 界面如下:

3.核心代码文件 

 该项目的文件部分很少,只有三个.py文件。

“app.py”文件对应的是具体的网站爬取过程,也就是需要分析的项目核心代码部分。

“fateadm_api.py”文件对应的是一些api接口调用类,具体包括查询金额、查询网络延迟、识别验证码、 从文件进行验证码识别、识别失败进行退款请求、充值接口、查询余额等方法,这些并不属于需要分析的核心代码部分。

“myui.py”文件是对应可视化ui的部分,故也不属于核心代码。

三、总结

通过对本项目的过程和代码进行概览分析之后,确定了本项目的核心代码部分为“app.py”的内容,我将在下一篇博客对该核心代码进行分析。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值