selenium爬取网页部分HTML代码

终究不过一场梦

已于 2022-08-17 17:46:58 修改

阅读量3.8k

点赞数 2

分类专栏：自动化爬虫 selenium 文章标签： selenium python beautifulsoup html

于 2022-08-10 17:09:56 首次发布

本文链接：https://blog.csdn.net/Peter_cat0/article/details/126269814

版权

自动化同时被 3 个专栏收录

1 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

selenium

1 篇文章

订阅专栏

selenium爬取网页部分HTML代码

1、构造webdriver启动方法
2、保存完整HTML代码
3、保存部分HTML代码，及其他方法
其他方案1：BeautifulSoup
其他方案2：lxml库中etree.HTML()

1、构造webdriver启动方法

driver = webdriver.Chrome()
base_url = "https://movie.douban.com/subject/26100958/"
driver.get(base_url)

2、保存完整HTML代码

print(driver.page_source)

3、保存部分HTML代码，及其他方法

# 定位至节点
elem = driver.find_element(By.ID, "info")

htm_dat = elem.get_property("outerHTML")
print('获取节点的html源码：', htm_dat)
htm_name = elem.get_property("nodeName")
print('节点名称：', htm_name)
htm_type = elem.get_property("nodeType")
print('节点类型：', htm_type)
htm_ght = elem.get_property("clientHeight")
print('节点实际高度：', htm_ght)
htm_dth = elem.get_property("clientWidth")
print('节点实际宽度：', htm_dth)
htm_node_name = elem.get_property("parentNode").get_property("nodeName")
print('该节点的父节点.名称：', htm_node_name)
htm_next_htm = elem.get_property("nextSibling").get_property("outerHTML")
print('该节点的相邻的下一个节点.源码：', htm_next_htm)

其他方案1：BeautifulSoup

安装：pip3 install beautifulsoup4
	 pip install lxml

其他方案2：lxml库中etree.HTML()

安装：pip install bs4
	 pip install lxml
	 pip install html5lib

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

终究不过一场梦

关注关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Selenium爬取网页

weixin_50909683的博客

12-10

2024

基于Selenium爬取动态网页一、打开百度并进行搜索二、爬取名人名言1. 爬取一页2. 爬取5页3. 数据储存4. 总代码三、爬取京东书籍信息四、总结一、打开百度并进行搜索打开百度： from selenium.webdriver import Chrome web = Chrome() web.get('https://www.baidu.com') 找到开发者选项：输入要查询的值并回车： input_btn = web.find_element_by_id('kw') input_btn.

Selenium+PhantomJS+python获取html动态生成的数据

06-29

python获取html动态生成的数 python获取html动态生成的数

参与评论您还未登录，请先登录后发表或查看评论

python使用selenium库，获取网站html

lspjuzi的博客

01-17

1162

可以配合python的beautifulsoup4库对页面进行解析，如果在服务器上运行要注意服务器上有没有安装对应的字体（被字体的问题坑过）

【爬虫】5.3 Selenium 查找HTML元素

Jack

06-30

3753

Selenium 提取HTML元素函数/方法

selenium 获取html文本内容

m0_62195482的博客

08-24

2953

selenium 获取html文本内容

selenium获取全部页面的html

Jun的博客

04-15

1万+

执行js得到整个HTML html = driver.execute_script("return document.documentElement.outerHTML")

使用selenium进行网页爬取

slibra_L的博客

06-27

1294

有些网站的反爬机制极强，需要更真实的去模拟人访问网站的动作才可以爬取信息，这时就需要selenium 一、selenium是什么 selenium是什么呢？它是一个强大的Python库。它可以做什么呢？它可以用几行代码，控制浏览器，做出自动打开、输入、点击等操作，就像是有一个真正的用户在操作一样。二、驱动下载首先需要安装浏览器驱动，下载驱动后将exe文件复制到python根目录下（虚拟环境根目录也可以） ChromeDriver与Chrome版本对应参照表及ChromeDriver下载链接

selenium页面爬取

m0_63276919的博客

07-15

247

selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题。用于Web应用程序测试的工具，直接运行在浏览器中，像真正的用户一样操作，支持通过各种Driver驱动真实浏览器完成测试。像是一个网页测试。通过元素定位可以获得相应的元素，类似于选择处理。每次测试花费时间较长，不方便处理，js渲染等待时间长例子：搜索火影忍者点击下一页。

Python selenium爬取微博数据代码实例

09-16

### Python Selenium爬取微博数据详解 #### 一、引言在大数据时代，社交媒体的数据成为研究用户行为、情感分析等领域的重要资源。微博作为中国最受欢迎的社交媒体平台之一，其公开的数据吸引了众多研究人员的关注...

利用selenium 爬取网页数据

这个面它又长又宽

06-06

5271

有些网站的数据是加密过的，不能直接通过请求的方式获取。于是我们可以利用脚本测试工具selenium来控制浏览器从而爬取数据。安装： chrome：地址栏输入chrome://settings/help查看浏览器版本信息：去：http://chromedriver.storage.googleapis.com/index.html 下载相对应的驱动然后放入浏览器的安装目录： ...

利用selenium获取动态页面的html数据

iteye_8029的博客

10-21

1848

selenium调用浏览器获取动态html值，再调用其API，可以很方面获取动态数据。经测试，确实简单易用，至于效率方面就没细究了。代码参考：http://my.oschina.net/flashsword/blog/147334（向原作者致敬）。【前言】我看其他文章中说到设置环境变量path，还提及selenium-server和Selenium-rc，我这篇文章没那么复杂，没有设置...

selenium获取html源代码

最新发布

weixin_41934979的博客

05-31

425

说明：这里用的环境是selenium4.0版本。

二哈欢乐多的博客

02-26

3606

1688爬虫，通过搜索关键词采用selenium爬取指定页数的商品信息.zip

03-01

请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

Selenium爬取网页详解

Klose_10的博客

10-10

3234

Selenium爬取网页详解 Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。 Selenium 自己不带浏览器，不支持浏览器的功能，它需要与第三方浏览器结合在一起才能

使用Selenium获取框架内网页源码

weixin_42771529的博客

05-29

1012

首先，确保您已经安装了Selenium库以及对应的WebDriver。例如，如果您使用的是Chrome浏览器，则需要下载ChromeDriver。以上步骤展示了如何使用Selenium获取网页源码，包括处理iframe等特殊情况。如果网页中包含iframe，您需要先切换到iframe内部，然后再获取其中的网页源码。编写Python脚本，导入必要的Selenium模块，并创建浏览器操作对象。如果您需要获取特定元素的HTML源码，可以使用XPath定位该元素，然后使用。属性来获取整个页面的HTML源码。

Python爬虫：selenium动态加载HTML的常用方法【汇总笔记】

Java Punk

09-30

6443

selenium动态加载HTML的常用方法，包括：获取节点，获取节点属性、值，页面交互、等待等方法

selenium 获取某个元素的html

Kwoky的博客

12-14

1万+

page_source属性,但是那个是获取整个网页的html而不是元素的html 通过 get_attribute('innerHTML')的方式可以获取某个元素的html信息 driver.find_element_by_id('tb-37327761306').get_attribute('innerHTML')...