selenium 获取最新页面源代码_Selenium获取网页源码

本文介绍了如何利用Python的Selenium库获取网页源代码,并将其保存为HTML文件。通过示例代码展示了如何使用正则表达式从源代码中提取特定链接,特别是包含'.html'的URL,并将这些URL保存到本地文档中。
摘要由CSDN通过智能技术生成

写在前面

Python+Selenium可以做网络爬虫。所以,我们可以从网页源码中爬出想要的信息。

Selenium的page_source方法可以获取到页面源码。获取到源码以后可以再查找自己想要的信息。

源码保存

为了方便查看网页源码,我们可以借用python提供的方法,将获取到的网页源码写入到html文件中。

#get_source.py

#www.testclass.cn

#Altumn

from selenium import webdriver

driver = webdriver.Chrome()

driver.get("https://www.testclass.cn/")

driver.maximize_window()

driver.implicitly_wait(10)

page = driver.page_source

#打印源码,防止乱码加上编码格式;

print(page.encode("utf8"))

#保存网页源码名称为:testclass_cn.html,存储路径为工程根目录;

f=open('./testclass_cn.html',mode="w",encoding="utf-8")

f.write(page)

存储的网页效果(局部截图):

源码操作

成功获取源码以后,我们可以在源码中继续查找想要的信息。

例如ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值