selenium 如何拖动滚动条?

一. 问题描述

有一些特殊网页,需要模拟点击并且有时候需要拖动滚动条才能显示完整的内容,举一个例子,比如人民日报客户端的网页,如下图所示:

image.png

需要点击阅读全文才能显示完整的内容,并且网页的图片需要拖动滚动条到图片的位置才能显示图片内容,如果需要获取这种网页的内容,我们可以使用 python + selenium 模拟浏览器的行为来获取。

二. 解决方法

关于 selenium 的安装与使用可以查看这篇文章:https://juejin.cn/post/6996973391328575525

1. 使用 js 脚本直接拖动滚动条到底部

# document.body.scrollHeight 是用来获取滚动条的高度
js = 'window.scrollTo(0, document.body.scrollHeight)'
driver.execute_script(js)

或者

js = "var q=document.documentElement.scrollTop=10000"
driver.execute_script(js)

2. 使用 js 脚本拖动滚动条到指定位置

target = driver.find_element_by_class_name("class_name")
driver.execute_script("arguments[0].scrollIntoView();", target) # 拖动到可见的元素去

这个方法可以将滚动条拖动到需要显示的元素位置,此方法用途比较广。

比如需要拖动滚动条到最后一个图片显示的位置,可以使用下面的方式:

time.sleep(1)
# 使用 xpath 获取最后一个图片
target = driver.find_element_by_xpath('(//img)[last()]')
driver.execute_script("arguments[0].scrollIntoView();", target)  # 拖动到可见的元素去

对于图片网站,通过滚动条下拉加载图片就可以使用上述方式实现。

3. 使用 js 脚本缓慢拖动滚动条

有的网页图片需要拖动滚动条到图片的位置才能显示图片内容,可以使用下面的方式缓慢拖动滚动条:

js = "return document.body.scrollHeight"
# 获取滚动条的高度
new_height = driver.execute_script(js)
for i in range(0, new_height, 350):
    time.sleep(0.05)
    driver.execute_script('window.scrollTo(0, %s)' % i)

这里实现方式是,先获取滚动条的高度,再通过 range(start, stop, step) 函数每次 350 的间距拖动。

4. selenium 如何判断元素是否存在

第一种方式:捕获异常

def isElementExist(driver, class_name):
    try:
        el = driver.find_element_by_class_name(class_name)
        return True
    except Exception as e:
        logging.error(e)
        return False

第二种方式:find_elements 方法

def is_element_exist(driver, class_name):
    el = driver.find_elements_by_class_name(class_name)
    if len(el) > 0:
        return True
    else:
        return False

四. 获取客户端网页数据的完整代码

import time

from lxml import etree
from selenium import webdriver
from selenium.webdriver import DesiredCapabilities
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC  # 和下面WebDriverWait一起用的
from selenium.webdriver.support.wait import WebDriverWait


def get_news_content(url):
    """
    解析网页内容
    :param url: 
    :return: 
    """
    html = html_selenium_firefox(url)
    tree = etree.HTML(html)
    title = tree.xpath('//h1[@class="title"]/text()')[0]
    pubtime = tree.xpath('//span[@class="pr10"]/text()')
    pubtime = pubtime[0] if len(pubtime) > 0 else ''
    source = tree.xpath('//span[@class="pr10 head-info-copyfrom"]/text()')
    source = source[0] if len(source) > 0 else '人民日报'
    img_urls = tree.xpath('//img/@src')

    result = {
        "title": title,
        "pubtime": pubtime,
        "source": source,
        "img_urls": img_urls,
    }
    return result


def html_selenium_firefox(url):
    """
    使用 selenium 获取网页内容
    :param url: 
    :return: 
    """
    driver = webdriver.Remote(
        command_executor='http://localhost:4444/wd/hub',
        desired_capabilities=DesiredCapabilities.FIREFOX,
    )
    # 隐式等待
    driver.implicitly_wait(10)
    # 请求页面
    driver.get(url)
    # 显式等待:显式地等待某个元素被加载
    wait = WebDriverWait(driver, 5)
    wait.until(EC.presence_of_element_located((By.TAG_NAME, 'span')))
    handle_selenium_content(driver, url)
    time.sleep(2)
    html = driver.page_source
    driver.quit()
    return html


def handle_selenium_content(driver, url):
    """
    模拟点击和滚动滚动条
    :param driver: 
    :param url: 
    :return: 
    """
    if 'wap.peopleapp.com' in url:
        class_name = 'read-more-zhankai'
        if is_element_exist(driver, class_name):
            i = driver.find_element_by_class_name(class_name)
            i.click()
        js = "return document.body.scrollHeight"
        new_height = driver.execute_script(js)
        for i in range(0, new_height, 350):
            time.sleep(0.05)
            driver.execute_script('window.scrollTo(0, %s)' % i)


def is_element_exist(driver, class_name):
    """
    判断元素是否存在
    :param driver: 
    :param class_name: 
    :return: 
    """
    el = driver.find_elements_by_class_name(class_name)
    if len(el) > 0:
        return True
    else:
        return False


if __name__ == '__main__':
    url = "https://wap.peopleapp.com/article/6305024/6198096"
    result = get_news_content(url)
    print(result)

参考文档:

https://zhuanlan.zhihu.com/p/343516637

https://www.cnblogs.com/landhu/p/5761794.html

<think>我们正在处理一个关于Selenium如何操作页面内嵌滚动条的问题。用户提供的引用中包含了几个与Selenium滚动操作相关的代码片段,我们可以从中提取有用的信息。 根据引用[1]中的代码,我们可以看到有几种滚动页面的方法: 1. 使用`window.scrollTo`来滚动整个页面(到底部或顶部) 2. 使用`arguments[0].scrollIntoView()`来滚动到特定的元素 但是,用户的问题是关于“内嵌滚动条”(inner scroll bar),这通常是指页面中某个元素内部的滚动条(如div等元素),而不是整个页面的滚动条。 处理内嵌滚动条的方法与整个页面的滚动有所不同。我们需要先定位到具有滚动条的元素,然后在该元素上执行滚动操作。 以下是一些可能的解决方案: 1. 使用JavaScript直接操作元素的滚动属性(如scrollTop, scrollLeft)。 2. 使用Selenium的ActionChains来模拟鼠标操作(如拖动滚动条),但这种方法通常比较复杂且不稳定。 推荐使用JavaScript的方式,因为它更直接且可靠。 示例代码: 假设我们有一个内嵌滚动条的元素,我们可以这样操作: ```python # 先定位到内嵌滚动条所在的元素 inner_element = driver.find_element_by_id("inner_scroll_element") # 使用JavaScript设置该元素的滚动条位置(垂直滚动到最底部) driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight", inner_element) # 如果要滚动到顶部 driver.execute_script("arguments[0].scrollTop = 0", inner_element) # 如果要水平滚动 # driver.execute_script("arguments[0].scrollLeft = arguments[0].scrollWidth", inner_element) # driver.execute_script("arguments[0].scrollLeft = 0", inner_element) ``` 另外,我们也可以使用`scrollIntoView`方法滚动到该元素内部的某个子元素,这样就会自动将滚动条滚动到该子元素可见的位置。 例如,我们想滚动到内嵌元素内部的某个子元素: ```python child_element = inner_element.find_element_by_id("child_element") driver.execute_script("arguments[0].scrollIntoView();", child_element) ``` 注意:如果内嵌滚动条所在的元素是一个iframe,那么我们需要先切换到该iframe,然后再操作内部的元素。 引用[4]中提到了多窗口切换,同样,如果滚动条在iframe中,我们需要先切换: ```python driver.switch_to.frame("iframe_id_or_name") # 然后操作内部元素 inner_element = driver.find_element_by_id("inner_scroll_element") driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight", inner_element) # 操作完成后,如果需要切换回主文档 driver.switch_to.default_content() ``` 总结步骤: 1. 定位到内嵌滚动条所在的元素(或者先切换到iframe,如果滚动条在iframe内)。 2. 使用`execute_script`执行JavaScript代码来滚动该元素内部的滚动条。 相关问题: 1. 如何判断一个元素是否有滚动条? 2. 如何使用Selenium模拟鼠标拖动滚动条? 3. 如何处理动态加载内容的滚动条(无限滚动)?</think>### 使用Selenium处理内嵌滚动条的方法 在Selenium中处理内嵌滚动条(如div容器内的滚动条)需要通过JavaScript直接操作DOM元素的滚动属性。以下是具体实现方法: #### 1. **定位内嵌滚动容器** 先确定包含滚动条的元素(通常是div): ```python # 通过CSS选择器定位 scroll_container = driver.find_element(By.CSS_SELECTOR, "div.scrollable-class") # 通过ID定位 scroll_container = driver.find_element(By.ID, "scrollable-div-id") ``` #### 2. **垂直滚动操作** ```python # 滚动到底部 driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight", scroll_container) # 滚动到顶部 driver.execute_script("arguments[0].scrollTop = 0", scroll_container) # 滚动到指定位置(如300px) driver.execute_script("arguments[0].scrollTop = 300", scroll_container) ``` #### 3. **水平滚动操作** ```python # 滚动到最右侧 driver.execute_script("arguments[0].scrollLeft = arguments[0].scrollWidth", scroll_container) # 滚动到最左侧 driver.execute_script("arguments[0].scrollLeft = 0", scroll_container) ``` #### 4. **滚动到内部特定元素** ```python inner_element = scroll_container.find_element(By.CLASS_NAME, "target-element") driver.execute_script("arguments[0].scrollIntoView()", inner_element) ``` #### 5. **平滑滚动(CSS动画)** ```python js = """ arguments[0].scrollTo({ top: arguments[1], behavior: 'smooth' }); """ driver.execute_script(js, scroll_container, 500) # 滚动到500px位置 ``` #### ⚠️ 注意事项 1. **内嵌框架处理**:如果滚动条在iframe内,需先切换: ```python driver.switch_to.frame("iframe-id") # 操作滚动条... driver.switch_to.default_content() # 切回主文档[^4] ``` 2. **动态内容加载**:滚动后添加等待时间确保内容加载: ```python from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC WebDriverWait(driver, 10).until( EC.visibility_of_element_located((By.CLASS_NAME, "new-content")) ) ``` ### 完整示例 ```python from selenium import webdriver from selenium.webdriver.common.by import By driver = webdriver.Chrome() driver.get("https://example.com/page-with-inner-scroll") # 定位滚动容器 scroll_div = driver.find_element(By.ID, "scrollable-area") # 滚动到底部加载内容 driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight", scroll_div) # 滚动到内部按钮并点击 button = scroll_div.find_element(By.CSS_SELECTOR, ".load-more-btn") driver.execute_script("arguments[0].scrollIntoView({block: 'center'});", button) button.click() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值