python selenium BeautifulSoup实现手动登录网站后持续爬取网站内不同页面内容

#此程序实现了手动登录网站后可持续爬取网站内不同页面的效果
from selenium import webdriver
from bs4 import BeautifulSoup
import time
import re
import json

browser=webdriver.Chrome("e:/chromedriver.exe")

browser.get("https://www.tianyancha.com/search?key=%E6%B7%B1%E5%9C%B3%E5%B8%82%E5%A4%A9%E5%81%A5%EF%BC%88%E9%9B%86%E5%9B%A2%EF%BC%89%E8%82%A1%E4%BB%BD%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8")

print("请在30秒之内登录网站")

time.sleep(30)
#★★★★★此时手动登录网站后 便可以连续get网页的内容★★★★★

#获取网页源码
html=browser.page_source
#print(html)

#用靓汤解析网页
bs=BeautifulSoup(html,"html.parser")
#查找到第一个div
div=bs.find('div',attrs={'class':'header'})

print(div.a.get("href"))
print(div.a.get_text())
    


print("★★★★★★★★★★★★★★★★★★★★★★★★★")

#★★★★★连续获取网站内的其它网页源码★★★★★
browser.get("https://www.tianyancha.com/company/603109979")

print("稍等5秒")
time.sleep(5)

html=browser.page_source

bs = BeautifulSoup(html,"html.parser")
h1=bs.find('h1',attrs={'class':'name'})
print(h1.get_text())


print("★★★★★★★★★★★★★★★★★★★★★★★★★")

table=bs.find('table',attrs={'class':'table -striped-col -border-top-none -breakall'})
print(table)

#print(html)

print("ok")

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值