网络爬虫playwright获取网页链接

本文介绍了如何利用网络爬虫Playwright抓取网页链接。通过打开网址,使用query_selector_all方法找到XPath选择器匹配的所有元素,然后通过get_attribute获取'href'属性得到链接。
摘要由CSDN通过智能技术生成

最近在研究网络爬虫playwright,用它来爬取某个网站的的链接,获取单个节点用page.get_attribute(selector, name, **kwargs),但是获取所有节点要用page.query_selector_all(selector),思路如下:
1、先打开网址;
2、使用选择器page.query_selector_all(selector)方法在页面中查找与XPath选择器匹配的所有元素,返回的是一个元素句柄列表;
3、最后根据使用element_handle.get_attribute(name )获取属性值即链接,属性名称为“href”,打印,代码如下所示。

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
        # 显示浏览器,每步操作等待100毫秒
        browser = p
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值