web scraper中Selectors解析

最新推荐文章于 2024-12-21 09:19:58 发布

天真作少年

最新推荐文章于 2024-12-21 09:19:58 发布

阅读量1.9k

点赞数 3

分类专栏： web scraper爬虫

原文链接：https://blog.csdn.net/qq_36931982/article/details/91414349

版权

web scraper爬虫专栏收录该内容

2 篇文章

订阅专栏

web scraper中Selectors解析

版权声明：本文为CSDN博主「书上猴爵」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_36931982/article/details/91414349

Text：
文本选择器用于文本选择。文本选择器将从所选元素（element）中提取文本数据。其中的html标签将被剥离，只返回文本。
Link：
主要是用于网址的获取和页面的跳转，如果Link selector有子selectors，在实际使用过程中会根据Link selector的网址进行网址的自动跳转，反之没有的话就是获取链接地址。
Popup Link：
连接弹出选择器和Link selector类似，不同的是Link popup selectors是用于当点击一个链接弹出一个新的窗口的需求。
Image：
图像选择器可以提取图像的src属性(URL)。
Table：
针对很多的页面实际上数据展现都在一个表格里面，有这表头和内容。这个时候我们可以采用Table selectors进行批量简单提取，在提取的过程中需要制定题目行和内容行。
Element attribute：
元素属性选择器可以提取HTML元素的属性值。
HTML：
Html选择器可以提取选定元素中的HTML和文本。其只是提取其父元素范围内的Html 。
Element：
元素选择器用于包含多个数据元素的元素选择。选择器将把每个选中的元素作为父元素返回给它的子选择器。子选择器将只提取元素选择器提供给它们的元素中的数据。就是Element selectors必须要要有子选择器，其子选择器必须在Element selector选择的元素基础上进行选择
Element scroll down：
滚动元素选择器，主要用于部分场景中需要滚动加载更多的页面，比如我们在浏览很多微博的时候，都是滚动鼠标进行加载更多。
Element click：
元素点击选择器，主要用于很多场景需要点击后加载元素的页面，比如我们常见的“点击加载更多”和“点击页码”。这些都需要web Scraper进行点击操作页面加载新的数据后再进行爬取。
Grouped：
分组选择器可以将多个元素的文本数据分组到一条记录中。提取的数据将存储为JSON形式，就是一个组合工具把多个元素拼接到一起。
Sitemap.xml：
xml链接选择器从站点发布的Sitemap.xml文件中提取url。Sitemap.xml主要是网站为了搜索引擎爬虫能够更容易地搜索站点，在大多数情况下，它们包含所有相关站点的页面url。