[python]-专利爬虫-SooPAT

最新推荐文章于 2024-07-17 16:03:40 发布

米小葱

最新推荐文章于 2024-07-17 16:03:40 发布

阅读量3.4k

点赞数 6

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/mikijt/article/details/103901332

版权

本文讲述了为获取专利信息，如何使用Python进行网页分析，包括理解URL规律、内容解析，以及利用BeautifulSoup抓取和xlwt存储数据到Excel。在分析SooPAT网页时，发现可通过关键字参数化实现不同关键字的搜索，并详细描述了提取专利信息的方法。

摘要由CSDN通过智能技术生成

目的

课题需要研究下专利信息，想把专利导出到excel，于是点击“Excel批量导出”，
在这里插入图片描述
结果需要充值信仰。
土豪朋友本文到这里结束了，请回吧…
…
恩，我接着讲，本着自己动手丰衣足食的原则，用python自己爬一爬。

网页分析

网页url规律

如果想爬多个网页，需要分析下多个网页的URL的规律。
对比下多个网页的URL，每个网页的规律显而易见。本例链接
在这里插入图片描述

URL关键字

通过观察搜索结果的URL，分析关键字“MC:(雷达)ZY:(77GHz OR 毫米波)”在URL中位置（有个关键字SearchWord），
在这里插入图片描述

利用urllib中的quote和parse进行验证（对比上图中的url）。

因此可以将搜索使用的关键字作为函数参数，便于其他关键字搜索。

其中关键字中MC(名称)、ZY(摘要)可以参考SooPat的表格检索相关内容。
在这里插入图片描述

内容分析

接下来就是分析需要爬取的内容，浏览器F12，查看网页代码。
在这里插入图片描述
首先找到每一条专利信息所对应的代码，关键信息：div标签，style属性【用区别于上一行（非专利信息）】。
继续往下找标题信息，定位到h2标签。从中提取包括专利类型、名称、申请号等信息；

从span标签可以提取申请人、分类号、摘要内容等相关信息，通过class属性可以轻松区分内容。
在这里插入图片描述

数据保存

想要的信息特征都有了，现在就是通过BeautifulSoup来一勺尝一尝。
接下来的问题就是存储，使用xlwt模块将数据保存在excel中。

到此所有内容分析完毕，上硬菜…

代码分享

# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import requests
import sys
from attr import attributes
import xlwt
from urllib.request import quote
from urllib import parse

g_sheet = None
g_file  = None 
g_count = 0

#设置表格样式
def set_style(nameAndDate,height,bold=False):
    style = xlwt.XFStyle(