python+playwright 学习-35.获取页面的完整 HTML 内容

前言

selenium 里面有个driver.page_source 可以获取整个html页面的内容,playwright里面也有类似的方法 使用 page.content()

page.content() 获取html内容

使用示例

from playwright.sync_api import sync_playwright
# 上海悠悠 wx:283340479
# blog:https://www.cnblogs.com/yoyoketang/


with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()

    page.goto("https://www.cnblogs.com/yoyoketang/")
    print(page.content())

对于喜欢爬虫的小伙伴就可以去抓取页面上的内容了。

inner_html() 与 inner_text()

page.content() 是获取整个页面的HTML,如果我们只需获取某个元素的HTML,如下图

可以使用locator().inner_html() 方法获取

  • inner_html() 获取元素的整个html源码内容
  • inner_text() 获取元素的文本内容
from playwright.sync_api import sync_playwright
# 上海悠悠 wx:283340479
# blog:https://www.cnblogs.com/yoyoketang/


with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()

    page.goto("https://www.cnblogs.com/yoyoketang/")
    # print(page.content())
    # 获取某个元素的HTML
    blog = page.locator('#blogTitle')
    print(blog.inner_html())
    print('-------------上海-悠悠----------------------')
    print(blog.inner_text())

text_content() 与 inner_text() 获取页面文本

text_content() 用来获取某个元素内所有文本内容,包含子元素内容,隐藏元素也能获取。
inner_text() 的返回值会被格式化 ,但是text_content()的返回值不会被格式化
最重要的区别 inner_text()返回的值, 依赖于页面的显示, text_content()依赖于代码的内容

from playwright.sync_api import sync_playwright
# 上海悠悠 wx:283340479
# blog:https://www.cnblogs.com/yoyoketang/


with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()

    page.goto("https://www.cnblogs.com/yoyoketang/")
    # print(page.content())
    # 获取某个元素的HTML
    blog = page.locator('#blogTitle')
    # print(blog.inner_html())
    # print('-------------上海-悠悠----------------------')
    # print(blog.inner_text())
    print(blog.text_content())

all_inner_texts() 与 all_text_contents()

all_inner_texts() 和 all_text_contents() 也是用于获取页面上的文本,但是返回的是list列表

from playwright.sync_api import sync_playwright
# 上海悠悠 wx:283340479
# blog:https://www.cnblogs.com/yoyoketang/


with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()

    page.goto("https://www.cnblogs.com/yoyoketang/")
    # print(page.content())
    # 获取某个元素的HTML
    blog = page.locator('#blogTitle')
    # print(blog.inner_html())
    # print('-------------上海-悠悠----------------------')
    # print(blog.inner_text())
    # print(blog.text_content())

    print(blog.all_inner_texts())
    print('-------------上海-悠悠----------------------')
    print(blog.all_text_contents())

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您好!如果您想使用 Pytest、PythonPlaywright 获取网页信息并进行存储,可以按照以下步骤进行: 1. 安装 Pytest 和 Playwright 库:在命令行中输入 `pip install pytest playwright`,即可安装 Pytest 和 Playwright 库。 2. 编写测试用例:使用 Pytest 的 API,可以编写测试用例,包括打开网页获取元素信息、填写表单、点击按钮等。您可以根据需要编写测试用例,实现获取网页信息的功能。 3. 存储数据:在获取网页信息后,可以将其存储到本地文件或数据库中。您可以使用 Python 提供的文件操作或数据库库(如 MySQLdb)进行存储操作。 下面是一个示例测试用例,用于获取百度搜索结果页面的所有链接,并将其存储到本地文件中: ```python import os import pytest from playwright.sync_api import Playwright, sync_playwright @pytest.fixture(scope="module") def playwright(): with sync_playwright() as p: yield p def test_get_links(playwright: Playwright): browser = playwright.chromium.launch() page = browser.new_page() page.goto('https://www.baidu.com/s?wd=playwright') links = page.query_selector_all('a') with open('links.txt', 'w') as f: for link in links: if link.get_attribute('href'): f.write(link.get_attribute('href') + os.linesep) browser.close() ``` 该测试用例使用 Pytest 和 Playwright 打开百度搜索结果页面获取所有链接,将其写入本地文件 `links.txt` 中,并最后关闭浏览器。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值