<爬虫> 通过selenium爬取历史电力数据

本文介绍如何利用selenium爬取Sonnagh, Ireland的历史天气数据。通过观察不同日期URL的变化,只需修改日期即可获取不同日期的资料。代码中包含等待网页加载、定位并提取数据的步骤,最后将数据整理成DataFrame存储。" 106189197,9594803,Kafka重复消费问题解决,"['消息队列', 'Kafka', '分布式系统']
摘要由CSDN通过智能技术生成

网址:Sonnagh, Ireland Weather History | Weather Underground

观察

通过观察发现,不同日期的数据网址的末尾有差别。例如,2019年11月1号和2号的数据网址分别如下:

https://www.wunderground.com/history/daily/ie/sonnagh/EIKN/date/2019-11-1

https://www.wunderground.com/history/daily/ie/sonnagh/EIKN/date/2019-11-2

因此只需要改变网址末尾的日期就可以爬到不同日期的数据。

代码

from selenium import webdriver
from bs4 import BeautifulSoup as bs
import time
import pandas as pd

获取网页的源代码函数,要等待网站加载完才能爬到数据,因此设置time.sleep( )

def get_soup(url):
    browser.get(url)
    time.sleep(9)
    html = browser.page_source # 获得网页源代码
    soup = bs(html) 
    return soup
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值