最近在研究网络爬虫playwright,用它来爬取某个网站的的链接,获取单个节点用page.get_attribute(selector, name, **kwargs),但是获取所有节点要用page.query_selector_all(selector),思路如下:
1、先打开网址;
2、使用选择器page.query_selector_all(selector)方法在页面中查找与XPath选择器匹配的所有元素,返回的是一个元素句柄列表;
3、最后根据使用element_handle.get_attribute(name )获取属性值即链接,属性名称为“href”,打印,代码如下所示。
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
# 显示浏览器,每步操作等待100毫秒
browser = p