爬虫 ,中国商标网

 

from win32com import client
import time
import random
from lxml import etree
dirver = client.DispatchEx("InternetExplorer.Application")
dirver.Navigate('http://sbj.saic.gov.cn/sbcx/')
dirver.Visible = 1
time.sleep(random.randint(2, 8))
dirver.Document.body.getElementsByTagName("p")[3].firstElementChild.click()
dirver.Visible = 1
time.sleep(random.randint(8, 12))
dirver.Document.body.getElementsByTagName("tbody")[1].click()
time.sleep(random.randint(10, 20))
for i in dirver.Document.body.getElementsByTagName("input"):
    if i.name == 'request:hnc':
        i.value = '百度'
# 点击查询
time.sleep(3)
dirver.Visible = 1
for i in dirver.Document.body.getElementsByTagName("input"):
    if i.id == '_searchButton':
        i.click()

time.sleep(20)
form_str=dirver.Document.body.getElementsByTagName("form")[2].innerHTML
print(form_str)
html_str = etree.HTML(form_str)
tr_list = html_str.xpath('//tr[@class="ng-repeat"]')
for tr in tr_list:
    item = {}
    item['注册号'] = tr.xpath('.//td[2]/a/text()')
    item['国际分类'] = tr.xpath('.//td[3]/text()')
    item['申请日期'] = tr.xpath('.//td[4]/text()')
    item['商标名称'] = tr.xpath('.//td[5]/a/text()')
    item['申请人名称'] = tr.xpath('.//td[6]/a/text()')

    print(item)
    with open('item.txt', 'w', encoding='utf-8') as f:
        f.write(str(item))

 

转载于:https://www.cnblogs.com/sea-stream/p/10518276.html

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值