＜爬虫＞通过selenium爬取历史电力数据

最新推荐文章于 2023-07-02 02:05:03 发布

当代女大学生

最新推荐文章于 2023-07-02 02:05:03 发布

阅读量1.4k

点赞数

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_36895331/article/details/121514404

版权

本文介绍如何利用selenium爬取Sonnagh, Ireland的历史天气数据。通过观察不同日期URL的变化，只需修改日期即可获取不同日期的资料。代码中包含等待网页加载、定位并提取数据的步骤，最后将数据整理成DataFrame存储。" 106189197,9594803,Kafka重复消费问题解决,"['消息队列', 'Kafka', '分布式系统']

摘要由CSDN通过智能技术生成

网址：Sonnagh, Ireland Weather History | Weather Underground

观察

通过观察发现，不同日期的数据网址的末尾有差别。例如，2019年11月1号和2号的数据网址分别如下：

https://www.wunderground.com/history/daily/ie/sonnagh/EIKN/date/2019-11-1

https://www.wunderground.com/history/daily/ie/sonnagh/EIKN/date/2019-11-2

因此只需要改变网址末尾的日期就可以爬到不同日期的数据。

代码

from selenium import webdriver
from bs4 import BeautifulSoup as bs
import time
import pandas as pd

获取网页的源代码函数，要等待网站加载完才能爬到数据，因此设置time.sleep( )

def get_soup(url):
    browser.get(url)
    time.sleep(9)
    html = browser.page_source # 获得网页源代码
    soup = bs(html) 
    return soup

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

当代女大学生

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

国家电网文章爬虫动态生成cookies 难办-------------------------使用selenium爬取瑞数加密网站-----------------------------

07-04

4073

import requests, re from lxml import etree import pandas as pd url = 'http://www.sgcc.com.cn/html/sgcc_main/col2017021449/2021-07/04/20210704085257936855746_1.shtml' headers = { 'Host': 'www.sgcc.com.cn', 'User-Agent': 'Mozilla/5.0 (Windo.

Python爬虫—获取2013年6月份全社会用电量

qq_34674558的博客

04-29

898

Python网络爬虫新手练习项目

参与评论您还未登录，请先登录后发表或查看评论

python爬虫数据采集_入门数据采集，python爬虫常见的数据采集与保存、

weixin_39541227的博客

11-29

341

本文介绍两种方式来实现python爬虫获取数据，并将python获取的数据保存到文件中。一、第一种方式：主要通过爬取百度官网页面数据，将数据保存到文件baidu.html中，程序运行完打开文件baidu.html查看效果。具体代码中有详细的代码解释，相信刚入门的你也能看懂~~说明一下我的代码环境是python3.7，本地环境是python2.x的可能需要改部分代码，用python3.x环境的没问题...

selenium + bs4 +requests 爬取全国电动汽车充电站数据

zzdxls的博客

08-15

5717

0.说明本文章仅用于python爬虫的学习，爬取到的数据仅用于学习、竞赛等非营利活动，如有侵权请及时联系。 1.简单介绍我们在爬虫时，往往都是静态界面，或者没有嵌套的的界面，直接使用requests.get()方法就可以获取，但是当遇到动态刷新的界面，或者有iframe嵌套的界面，我们应该怎么处理。 selenium是一个很棒的库，除了可以完成自动化操作，还可以很好的解决上面的问题，下面我以爬取全国电动汽车充电站数据为例，学习一下爬虫的另一些方面。 ...

python用电度数设计_用Python实现一个爬取XX大学电费通知的小脚本

weixin_39901404的博客

11-30

369

内容简要1分析网站2简单爬取3进阶自定义爬取4保存进数据库学校基础设施太差，宿舍电量过低提醒虽然贴在楼下，但是作为低头一族，经常忘记看提醒导致宿舍酣战时突然黑屏，为了避免这种尴尬的场景以及强化PY学习，我决定制作一个简单的爬虫。首先我通过学校的微信公众号找到了一个十分隐蔽的查低电量提醒网站。它的界面是这样的：手机适应的页面当然在电脑上会有一些崩=。=，但是不要介意，我们要的是功能。下面是查询到的界...

Python获取用电情况数据-AHPU校园网

qq_30018717的博客

01-09

1428

获得post的地址和信息有两种方式，一种是通过查看网页源码，用谷歌浏览器的开发者工具分析信息，不过这种方式比较费时间。所以我介绍第二种方式，用抓包的方法。首先我们要使用抓包软件来分析浏览器和服务器之间交换了什么信息，抓包软件Fiddler直接打开就开始抓包了，然后打开浏览器访问网页。 Fiddler下载地址，文件来源于网上https://songzx.lanzous.com/iaBrFk6mrsd ...

爬虫系列（七）借助selenium爬取数据

神码不是浮云

09-09

1329

总是每隔一段时间懒惰很久，懒惰中懊恼虚度光阴，又沉溺懒惰不能自拔，陷入这种怪圈中很久很久。这一篇本应该上年写的，因为懒惰迟迟没有动手。懒惰误人生…… 使用selenium爬数据的好处有很多。有些网页数据是通过js加载后才有的，并且有复杂的校验过程；有些网页需要登录后才能查看数据；有些网页需要点击后才能展示数据... 这些都可以通过selenium的webdriver来抓取数据，它就是一个可以用代...

1688爬虫，通过搜索关键词采用selenium爬取指定页数的商品信息.zip

最新发布

03-01

爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

python爬虫利用selenium爬取淘宝和京东商品信息

01-19

python爬虫利用selenium爬取淘宝和京东商品信息。实现了无头浏览器进行爬取，即不需要启动自己的浏览器即可完成爬取信息的功能，而且避免了网站的反爬机制。python爬虫利用selenium爬取淘宝和京东商品信息。实现了...

用户用电量数据data.rar

04-13

python数据分析与应用大作业，对用户用电量数据进行数据处理，对应文章《作业3（大作业）...》练习题数据

（廿八）Python爬虫：使用Selenium爬取淘宝商品信息-附件资源

03-05

（廿八）Python爬虫：使用Selenium爬取淘宝商品信息-附件资源

Python爬虫+selenium——爬取淘宝商品信息和数据分析

qq_60479747的博客

12-15

4109

Python+selenium爬取淘宝商品，1.驱动浏览器访问淘宝网页，2.进行搜索，扫码登录，3.页面滚动，获取数据

Python爬虫与一汽项目【二】爬取中国东方电气集中采购平台

weixin_33695082的博客

04-09

228

网站地址：https://srm.dongfang.com/bid_detail.screen 东方电气采购的页面看似很友好，实际上并不好爬取在观察网页的审查元素之后发现，1处的网页响应只是单纯的一些js代码，并没有我们想要的数据信息，因此很明显该网页是经过js修饰的另外再翻页时，发现该网页的url始终不变，所以这是一个以post方式提交的页面。果断转向2出的url，点开之后可以...

Python爬虫-js案例-全球能源监测站电厂数据

SpiritedAway

07-08

853

网址 http://globalenergyobservatory.org/ ，获取其全球电厂数据以三门峡水电站为例，网站能提供的数据非常丰富，这里我只关心基本信息如名字，摘要信息，经纬度，电厂定位精度，边界信息其中名字，摘要信息，经纬度，电厂定位精度等都可以在通过requests.get的方式直接获取，边界经纬度信息无法直接获取分析经验告诉我，边界信息可能在页面中以html标签...

国网电费接口文档源码分享

weixin_47458273的博客

05-06

833

电费充值接口 1、添加充值卡网关URL：https://router.wikeyun.cn/rest/Power/addCard 参数名类型必填参数说明 store_id 字符串是店铺ID card_num 字符串是充值账号

关于sgcc.wsgw逆向之2.3.1

a456003的博客

02-26

2079

逆向sgcc.wsgw还原加密数据2.3.1

chatgpt赋能python：如何用Python计算居民用电量

「虚幻私塾」

07-02

479

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

line 2, in <module> from selenium import webdriver

09-21

这行代码是在Python中使用Selenium库时常见的导入语句。它的意思是从Selenium库中导入webdriver模块。 Selenium是一个用于Web应用程序自动化测试的库。它提供了一组功能强大的工具和API，可以模拟用户在Web浏览器中...

＜爬虫＞ 通过selenium爬取历史电力数据

观察

代码

＜爬虫＞通过selenium爬取历史电力数据