[python]-专利爬虫-SooPAT

本文讲述了为获取专利信息,如何使用Python进行网页分析,包括理解URL规律、内容解析,以及利用BeautifulSoup抓取和xlwt存储数据到Excel。在分析SooPAT网页时,发现可通过关键字参数化实现不同关键字的搜索,并详细描述了提取专利信息的方法。
摘要由CSDN通过智能技术生成

目的

课题需要研究下专利信息,想把专利导出到excel,于是点击“Excel批量导出”,
在这里插入图片描述
结果需要充值信仰。在这里插入图片描述
土豪朋友本文到这里结束了,请回吧…

恩,我接着讲,本着自己动手丰衣足食的原则,用python自己爬一爬。

网页分析

网页url规律

如果想爬多个网页,需要分析下多个网页的URL的规律。
对比下多个网页的URL,每个网页的规律显而易见。本例链接
在这里插入图片描述

URL关键字

通过观察搜索结果的URL,分析关键字“MC:(雷达)ZY:(77GHz OR 毫米波)”在URL中位置(有个关键字SearchWord),
在这里插入图片描述
在这里插入图片描述
利用urllib中的quote和parse进行验证(对比上图中的url)。
在这里插入图片描述
因此可以将搜索使用的关键字作为函数参数,便于其他关键字搜索。

其中关键字中MC(名称)、ZY(摘要)可以参考SooPat的表格检索相关内容。
在这里插入图片描述

内容分析

接下来就是分析需要爬取的内容,浏览器F12,查看网页代码。
在这里插入图片描述
首先找到每一条专利信息所对应的代码,关键信息:div标签 ,style属性【用区别于上一行(非专利信息)】。
继续往下找标题信息,定位到h2标签。从中提取包括专利类型、名称、申请号等信息;
在这里插入图片描述
从span标签可以提取申请人、分类号、摘要内容等相关信息,通过class属性可以轻松区分内容。
在这里插入图片描述

数据保存

想要的信息特征都有了,现在就是通过BeautifulSoup来一勺尝一尝。
接下来的问题就是存储,使用xlwt模块将数据保存在excel中。

到此所有内容分析完毕,上硬菜…

代码分享

# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import requests
import sys
from attr import attributes
import xlwt
from urllib.request import quote
from urllib import parse

g_sheet = None
g_file  = None 
g_count = 0

#设置表格样式
def set_style(nameAndDate,height,bold=False):
    style = xlwt.XFStyle(
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值