码字不易,喜欢请点赞!!!
背景:其实两年前就爬了##查的很多信息,包括电话、地址等基本信息之外,还有公司的股东、专利以及对外投资等信息,但是当时的电脑没备份,代码都没了。这次山东的某个教育机构有偿找我帮爬##查公司电话以及地址信息,所以就重新爬了一下##查。
准备:selenium+PhatomJS或者selenium+Firefox
我这里直接用的后者selenium+Firefox
思路爬取这部分信息的话,代码其实不难,主要包括模拟登陆、获得页面网址以及抓取页面信息。
模拟登陆
网址:https://www.tianyancha.com/login
页面如下:
使用selenium模拟登陆代码:
time.sleep(random.random()+1)
browser.get(loginURL)
time.sleep(random.random()+random.randint(2,3))
browser.find_element_by_css_selector('div.title:nth-child(2)').click()
time.sleep(random.uniform(0.5,1))
phone = browser.find_element_by_css_selector('div.modulein:nth-child(2) > div:nth-child(2) > input:nth-child(1)')
phone.send_keys(zhangHao)
time.sleep(random.uniform(0.4,0.9))
password = browser.find_element_by_css_selector('.input-pwd'