Selenium+BeautifulSoup爬取动态网页资源

最新推荐文章于 2023-05-16 11:54:12 发布

LTuantuan

最新推荐文章于 2023-05-16 11:54:12 发布

阅读量274

点赞数

文章标签： selenium beautifulsoup python

本文链接：https://blog.csdn.net/LTuantuan/article/details/130247960

版权

目标：爬取华盛顿人口统计表格内容，并写入csv文件中。

问题：该表格为后期渲染得到，源代码中没有table元素。

解决方法：使用selenium模拟人工打开网页操作，等待渲染完毕后获取页面资源。

一、下载selenium

pip install selenium

二、根据不同的浏览器安装相应的驱动

首先查看chrome版本：

在下载网址中下载和当前版本接近的驱动，下面两个网址均可。

1.https://npm.taobao.org/mirrors/chromedriver/

2.http://chromedriver.storage.googleapis.com/index.html

解压后将exe文件放python安装目录下的Scripts文件夹里

三、开始写脚本，具体如下

from bs4 import BeautifulSoup
from selenium import webdriver
import csv

def write_population_csv(url):

    browser = webdriver.Chrome()
    browser.get(url)
    html = browser.page_source
    soup = BeautifulSoup(html,"lxml")
    table = soup.find('table')

最低0.47元/天解锁文章

LTuantuan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Selenium+BeautifulSoup爬取动态网页资源

解决方法：使用selenium模拟人工打开网页操作，等待渲染完毕后获取页面资源。解压后将exe文件放python安装目录下的Scripts文件夹里。在下载网址中下载和当前版本接近的驱动，下面两个网址均可。问题：该表格为后期渲染得到，源代码中没有table元素。目标：爬取华盛顿人口统计表格内容，并写入csv文件中。二、根据不同的浏览器安装相应的驱动。一、下载selenium。三、开始写脚本，具体如下。
复制链接

扫一扫