网络爬虫playwright获取网页链接

kendybear

已于 2022-06-17 09:23:09 修改

阅读量3.7k

点赞数 3

分类专栏：网络爬虫文章标签：爬虫网络爬虫 python

于 2022-06-15 12:05:58 首次发布

本文链接：https://blog.csdn.net/kendybear/article/details/125294316

版权

本文介绍了如何利用网络爬虫Playwright抓取网页链接。通过打开网址，使用query_selector_all方法找到XPath选择器匹配的所有元素，然后通过get_attribute获取'href'属性得到链接。

摘要由CSDN通过智能技术生成

最近在研究网络爬虫playwright，用它来爬取某个网站的的链接，获取单个节点用page.get_attribute(selector, name, **kwargs)，但是获取所有节点要用page.query_selector_all（selector），思路如下：
1、先打开网址；
2、使用选择器page.query_selector_all（selector）方法在页面中查找与XPath选择器匹配的所有元素，返回的是一个元素句柄列表；
3、最后根据使用element_handle.get_attribute(name ）获取属性值即链接，属性名称为“href”，打印，代码如下所示。

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
        # 显示浏览器，每步操作等待100毫秒
        browser = p

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kendybear

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python+playwright 学习-35.获取页面的完整 HTML 内容

qq_27371025的博客

03-26

1647

selenium 里面有个driver.page_source 可以获取整个html页面的内容，playwright里面也有类似的方法使用 page.content()

下一代自动化爬虫神器--playwright，所见即所得，不用逆向不要太香!!!

最新发布

以昨日如初的博客

07-12

277

我们拿到了这个元素“//*[@class="el-table__row"]/td[3]/div/span”，对应了每个我们想要的标题，这样我们也就可以顺利的获取下来了。以获取页面数据为目的，可以解决问题就是好方式，我还是比较喜欢用元素获取，然后无头运行解决问题，出了问题调试也方便，不评论好坏，自己喜欢就好。

如何用Playwright进行网页抓取？

candice931020的博客

11-08

9951

Playwright网页抓取教程近年来，随着互联网行业的发展，互联网的影响力逐渐上升。这也归功于技术水平的提高，研发出了越来越多用户体验良好的应用程序。此外，从网络应用程序的开发到测试，自动化在整个过程中的使用也越来越普及。网络爬虫抓取数据也应用地越来越广泛。拥有高效的工具来测试网络应用程序至关重要。Playwright等库在浏览器中打开网络应用程序并通过其他交互，例如单击元素、键入文本，以及从网络中提取公共数据来加速整个过程。本教程会解释有关Playwright的相关内容，以及如何将其....

如何使用Playwright抓取网页

weixin_26750481的博客

09-10

8312

Playwright is a browser automation library very similar to Puppeteer. Both allow you to control a web browser with only a few lines of code. The possibilities are endless. From automating mundane task...

【经验分享】利用palywright爬取网页上的内容_爬虫

paddy0213的博客

03-27

4202

网上关于小说爬虫知识，随便一搜都有介绍，所以这里就不对网页源代码做过多的分析，主要是讲解如何通过playwright保存关键信息。个人非常喜欢playwright这个模块，它非常契合python的简单易用的特性，特别适合我这种业余爱好者。这种特性，就让他在爬取网页上内容这块，也有了一席之地。可以这么说，我们能在网页看到的，就应该能爬取下来。playwright模块能在独立的浏览器上，进行各项操作，以及源网页代码的提取，截图操作。

Playwright异步实现在当前tab打开a链接

小龙在线

04-07

669

上下文管理器来创建一个Chromium浏览器实例。然后，我们创建一个新的浏览器上下文，并在其中打开一个新页面。接着，我们导航到目标网址（在本例中为https://example.com）。要在Playwright中使用异步API并在当前标签打开一个链接，请遵循以下步骤。然后，我们等待页面导航完成，打印当前页面的标题并关闭浏览器。为了在当前标签中打开一个链接，我们使用。命令，它将点击页面上的第一个。在这个示例中，我们使用。

playwright 爬虫使用

m0_67401382的博客

08-02

4514

的链接，遇到这样的请求，会回调cancel_request方法处理，cancel_request方法可以接收两个参数，一个是route，代表一个CallableRoute对象，另外一个是request，代表Request对象。click方法里面接选择器表达式，提取后点击，可设置timeout超时时间，默认30秒，设置以毫秒为单位，如等待5秒未点击成功，这报错timeout=5000。如果打开页面直接提取评论数据，是提取不到的，需要吧数据滑动到页面上后，再提取（坑死了）...

强大易用！新一代爬虫利器 Playwright

npm_run_dev__的博客

09-19

1132

本文介绍了 Playwright 的基本用法。它是一款自动化测试工具，其 API 强大又易于使用，同时具备很多 Selenium、Pyppeteer 不具备的更好用的 API，所以可以用来抓取复杂的 JavaScript 渲染页面，可谓是新一代的爬取利器。本文相关代码下载：https://github.com/Python3WebSpider/PlaywrightTest。

python+playwright 学习-14.导航page.goto(url) 详解

qq_27371025的博客

03-16

2148

Playwright 可以导航到 URL 并处理由页面交互引起的导航。本篇涵盖了等待页面导航和加载完成的常见场景。

Playwright接口请求

weixin_46770425的博客

11-24

967

playwright page.on详解

利用Playwright库进行电影网站数据的获取

PorterZhang的博客

05-12

1229

本系列可能是一个比较长的系列，主要是对《Python3网络爬虫开发实战》前七章的一个内容总结并且熟悉使用一下相关的框架与技术。

playwright连接已有浏览器操作

qq_46158060的博客

04-30

2993

通过相关指令方法，直接打开已经存在的浏览器，或者自己重新启动一个全新的浏览器

playwright实战：某网站舆情爬取

weixin_66451233的博客

05-22

538

playwright对网页的抓取效率比selenium高多了，先遍历一遍详情页url存到redis里，使用多进程兼分布式的思想对网站进行爬取，在实战过程中，体验了一把playwright的魅力，但还是存在一些问题，playwright会内存泄漏，程序稳定性不好。我一实习生搞这些，不废话了直接上自动化才艺。

python使用playwright学习笔记-元素操作

study__py的博客

05-31

265

locator()可以对元素进行定位，那么有哪些常用的对元素进行操作的方法呢？

playwright——query_selector_all方法详解

r558vv的博客

11-27

2192

elements = page.query_selector_all('.item >> .a') #既能匹配到"class = item"下一级"class = a" 的元素，又能匹配到 "class = a" 下一级或更深层级 "class = a" 的元素。eg2):匹配页面所有 "class = item" 下的所有元素中 "class = a" 的元素。eg):匹配页面所有 "class = item" 下所有 "div" 元素和所有 "span" 的元素。使用 >> 分隔多个选择器。

python playwright库获取元素链接

05-23

要获取元素链接，您可以使用 Playwright 库中的 `element_handle.get_attribute()` 方法获取元素的 `href` 属性。下面是一个示例代码： ```python from playwright.sync_api import Playwright, sync_playwright with sync_playwright() as p: browser = p.chromium.launch() page = browser.new_page() page.goto('https://www.example.com') link_element = page.query_selector('a') link_href = link_element.get_attribute('href') print(link_href) browser.close() ``` 在这个示例中，我们首先使用 `query_selector()` 方法获取一个链接元素，然后使用 `get_attribute()` 方法获取该链接元素的 `href` 属性，并将其打印出来。