python读取网页源代码_使用selenium webdriver python获取页面源代码

最新推荐文章于 2022-12-14 22:07:25 发布

weixin_39970166

最新推荐文章于 2022-12-14 22:07:25 发布

阅读量600

点赞数

文章标签： python读取网页源代码

我取消了一些网站和它的动态工作。我要去一个网站的所有页面，同时我要所有页面的所有页面源数据列表。

这是我的代码移动到所有的页面并获取它们的页面源代码。但函数末尾没有打印或返回。

我是为其他网站做的，但不是这里。

请帮我摆脱困境。

谢谢你def get_html(driver):

output = []

keep_going = True

while keep_going:

# Pull page HTML

try:

output.append(driver.page_source)

except TimeoutException:

pass

try:

# Check to see if a "next page" link exists

keep_going = driver.find_element_by_class_name(

'next ').is_displayed()

except NoSuchElementException:

keep_going = False

if keep_going == True:

try:

driver.wait.until(EC.element_to_be_clickable(

(By.CLASS_NAME, 'next '))).click()

time.sleep(3)

except TimeoutException:

keep_going = False

else:

keep_going = False

print(str(len(output)))

return (output)

raw_data = get_html(driver)

print(str(len(raw_data)) listing found")

这是我得到的错误输出。在

^{pr2}$

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39970166

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫——使用selenium+chrome options爬取站长素材页面源码

weixin_44321116的博客

02-12

436

一.站长素材 1.需要爬取的内容 2.代码 from selenium import webdriver from selenium.webdriver.chrome.options import Options import time # webdriver 路径 path = r'E:\chromedriver_win32\chromedriver.exe' # 创建无界面浏览器 chro...

selenium 获取最新页面源代码_Selenium获取网页源码

weixin_39546092的博客

12-23

3238

写在前面Python+Selenium可以做网络爬虫。所以，我们可以从网页源码中爬出想要的信息。Selenium的page_source方法可以获取到页面源码。获取到源码以后可以再查找自己想要的信息。源码保存为了方便查看网页源码，我们可以借用python提供的方法，将获取到的网页源码写入到html文件中。#get_source.py#www.testclass.cn#Altumnfrom sele...

参与评论您还未登录，请先登录后发表或查看评论

selenium 获取网页源码

热门推荐

IAlexanderI的专栏

05-11

3万+

selenium本是用来对web application做自动化测试的。不过，它有个天大的好处：能让我们用python(当然不仅是python)代码模拟人对浏览器的操作。所需软件：python2.7 , firefox 25.0.1(版本不能太高), selenium2.44.0(使用pip install selenium安装即可) 1. 打开浏览器，请求百度主页，5秒钟后关闭浏览器 fro

selenium webdriver爬取动态网页

12-31

selenium webdriver 爬虫爬取动态网页，里面有chromedriver，windows平台可用，linux需要更换linux的chromedriver。修改代码可爬取其他网站的

python爬虫实战-----利用selenium爬取表格一

weixin_30493321的博客

08-07

996

这是我之前在一家公司做爬虫实习的时候写的，内容是爬取携程网站上境外酒店房间的各种信息，然后再存入sql server中。现在与大家分享！开头公司带我的老师给我的任务是：建立几个数据库表，内容涉及到携程网中所有境外酒店的房间信息。我首先将他给的信息建了表格。接着就思考怎么编程，我所用的语言是python。由于信息主要在网站的表格中，所以我觉得采用selenium库为宜。但是，selenium库中we...

python基于selenium+PhantomJS实现用提交表单,并点击按钮功能，获取返回的页面源码和ur等信息l。

简单就是美

01-14

1万+

python做爬取页面功能的时候，会遇到有与网站交互操作的需求，例如要点击某个按钮，填写表单数据。下面用百度搜索作为一个简单的例子模拟实现。代码很简单，12行左右。基于selenium+PhantomJS可以很简单地实现。至于开发的环境：环境是windows，python版本为3.5.2。selenium+PhantomJS搭建步骤参考：http://blog.csdn.net/u014175572/article/details/54427525

python beautifulsoup模拟点击_使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据...

weixin_39881760的博客

12-03

1273

记录一次快速实现的python爬虫，想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案，网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995.html。比较简单的网站不同的页码的链接也不同，可以通过观察链接的变化找出规律，然后生成全部页码对应的链接再分别抓取，但是这个网站在换页的时候链接是没有变化的，因此打算去观察一下点击第二页时的请求发现...

selenium-python-master_pythonseleium_returndzi_pythonSelenium_

10-02

综上所述，这个项目可能包含了使用Python Selenium进行网页抓取的各个方面，包括元素定位、交互操作、动态内容处理以及可能的数据提取和异常处理等。要深入了解项目细节，需要查看项目源代码和文档。

python-selenium-parser：使用Selenium WebDriver自动执行GoogleYandex搜索

03-03

在"python-selenium-parser-master"这个压缩包中，可能包含了项目的源代码、示例脚本、可能的测试用例以及相关的文档。通过对这些文件的深入研究，我们可以更全面地了解如何结合Python和Selenium WebDriver来实现...

generating_reports:使用Selenium WebDriver从网站自动生成报告

04-13

在压缩包`generating_reports-main`中，很可能包含了实现这一过程的Python源代码。通过分析这些代码，可以更具体地了解如何组织和实现上述步骤。代码可能包括定义浏览器驱动、页面元素的定位策略、逻辑控制结构（如...

使用Python在Selenium WebDriver中获取WebElement的HTML源代码

asdfgh0077的博客

02-05

5372

我正在使用Python绑定来运行Selenium WebDriver。 from selenium import webdriver wd = webdriver.Firefox() 我知

selenium + python 获取table数据

glimmer的博客

08-01

3万+

def row_cell_get_table_text(table_loc,row,col): col = str(col) row = str(row+1) locator = table_loc + "/tbody/tr[" + row + "]/td[" + col + "]" text = driver.find_element(By.XPATH,locat

python操作html的object,使用Selenium Python解析HTML并读取HTML表

weixin_36403587的博客

02-21

226

I am converting some of my web-scraping code from R to Python (I can't get geckodriver to work with R, but it's working with Python). Anyways, I am trying to understand how to parse and read HTML tabl...

python3.8.1+selenium3.141.0获取表单中最新的一行数据，复用脚本

zsh595的博客

05-21

468

实现脚本如下： from selenium import webdriver import unittest from time import sleep from time import * import json class testInterFace(unittest.TestCase): def setUp(self): self.driver = webdriver.Chrome() self.driver.implicitly_wait(30)

javaScript中innerHTML,innerText,outerHTML,outerText的区别

weixin_30782331的博客

09-02

131

开头说下innerText和outerText只在chrome浏览器中有效定义和用法 innerHTML 属性设置或返回表格行的开始和结束标签之间的 HTML，包括标签。来看代码 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> ...

Python使用Selenium Webdriver爬取网页所有内容