python 使用selenium爬取加载js的网页

最新推荐文章于 2024-03-22 06:36:16 发布

Datteln

最新推荐文章于 2024-03-22 06:36:16 发布

阅读量1.6k

点赞数

分类专栏： python 文章标签： python selenium

本文链接：https://blog.csdn.net/Datteln/article/details/104892042

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

python 使用selenium爬取加载js的网页

因为使用的是谷歌游览器，需要下载与谷歌游览器相关版本的chromedriver.exe，不然会报错或者网页不加载。使用selenium加载js网页成功解决了request库爬取网页所带来的网页源代码不完整的问题。

from bs4 import BeautifulSoup
from selenium import webdriver  # 加载浏览器的库
import numpy as np
import pandas as pd


url='http://zq.win007.com/cn/team/Summary/24.html'
try:    
	browser=webdriver.Chrome(r"C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chromedriver.exe")
    browser.get(url)
    html = browser.page_source
    soup=BeautifulSoup(html,'html.parser')
	a=soup.find(id="Tech_schedule").get_text()
	b=re.split(' ',a)
	name=['比赛','时间','主队','比分','客队','犯规','黄牌','红牌','控球率','射门(射正)','传球(成功)',
 '传球成功率','界外球','过人次数','角球','越位','头球(成功)','救球','铲球','射门不中','射门被挡',
 '评分']
	del b[0:15]
	c=np.array(b).reshape(int(len(b)/22),22)
	c_1=pd.DataFrame(c,columns=name)
    browser.quit()
except:
     print("从 " + url + "获取数据失败")
     browser.quit()

Datteln

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 使用selenium爬取加载js的网页

python 使用selenium爬取加载js的网页因为使用的是谷歌游览器，需要下载与谷歌游览器相关版本的chromedriver.exe，不然会报错或者网页不加载。使用selenium加载js网页成功解决了request库爬取网页所带来的网页源代码不完整的问题。from bs4 import BeautifulSoupfrom selenium import webdriver # 加载...
复制链接

扫一扫