Python 爬虫：专利信息

最新推荐文章于 2024-04-04 01:31:54 发布

梁书源

最新推荐文章于 2024-04-04 01:31:54 发布

阅读量2k

点赞数

分类专栏： Python 文章标签： python 爬虫定位

本文链接：https://blog.csdn.net/nedstark_2012/article/details/114954170

版权

Python 爬虫：专利信息

解决的主要需求
代码

解决的主要需求

专利信息来源:
知识产权数据库:点击跳转网站
这个网站原来叫“吉江数据”，最近更名为“知识产权数据库”。在该网站检索前需要注册账号并登录，并且该网站的反爬机制比较完善，如果各位需要爬取的单位地址比较多，建议各位事先多准备几个账号以备使用。

代码

# Author: LSY
import openpyxl
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
from bs4 import BeautifulSoup
import random


driver = webdriver.Chrome(executable_path='你的路径')
driver.get('https://www.iprdb.com/user/login.html')
wait = WebDriverWait(driver, 1)
account = driver.find_element_by_css_selector('#account')
account.send_keys("账号名/电话")
password = driver.find_element_by_css_selector('#password'

最低0.47元/天解锁文章

梁书源

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫：专利信息

通过专利信息获取单位或企业的地址解决的主要需求代码解决的主要需求当我们有大量的企事业单位名称,想要批量获取相应的地址时,一般会借助于百度地图API,但是百度地图的API一般只能识别xx市xx区xx路xx号这样的格式化地址,对于xx大学、xx医院等单纯的单位名称，百度地图API的准确率特别低。在不断探索中，我发现专利信息中的“申请人地址信息”可以较完美地解决该问题。而且由于专利信息的文本是固定的，可以避免单位名称变动或企业位置迁移而导致无法正确定位历史位置。专利信息来源:知识产权数据库:点击跳转网站
复制链接

扫一扫