web scraper中Selectors解析
版权声明:本文为CSDN博主「书上猴爵」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_36931982/article/details/91414349
-
Text:
文本选择器用于文本选择。文本选择器将从所选元素(element)中提取文本数据。其中的html标签将被剥离,只返回文本。 -
Link:
主要是用于网址的获取和页面的跳转,如果Link selector有子selectors,在实际使用过程中会根据Link selector的网址进行网址的自动跳转,反之没有的话就是获取链接地址。 -
Popup Link:
连接弹出选择器和Link selector类似,不同的是Link popup selectors是用于当点击一个链接弹出一个新的窗口的需求。 -
Image:
图像选择器可以提取图像的src属性(URL)。 -
Table:
针对很多的页面实际上数据展现都在一个表格里面,有这表头和内容。这个时候我们可以采用Table selectors进行批量简单提取,在提取的过程中需要制定题目行和内容行。 -
Element attribute:
元素属性选择器可以提取HTML元素的属性值。 -
HTML:
Html选择器可以提取选定元素中的HTML和文本。其只是提取其父元素范围内的Html 。 -
Element:
元素选择器用于包含多个数据元素的元素选择。选择器将把每个选中的元素作为父元素返回给它的子选择器。子选择器将只提取元素选择器提供给它们的元素中的数据。就是Element selectors必须要要有子选择器,其子选择器必须在Element selector选择的元素基础上进行选择 -
Element scroll down:
滚动元素选择器,主要用于部分场景中需要滚动加载更多的页面,比如我们在浏览很多微博的时候,都是滚动鼠标进行加载更多。 -
Element click:
元素点击选择器,主要用于很多场景需要点击后加载元素的页面,比如我们常见的“点击加载更多”和“点击页码”。这些都需要web Scraper进行点击操作页面加载新的数据后再进行爬取。 -
Grouped:
分组选择器可以将多个元素的文本数据分组到一条记录中。提取的数据将存储为JSON形式,就是一个组合工具把多个元素拼接到一起。 -
Sitemap.xml:
xml链接选择器从站点发布的Sitemap.xml文件中提取url。Sitemap.xml主要是网站为了搜索引擎爬虫能够更容易地搜索站点,在大多数情况下,它们包含所有相关站点的页面url。