RuiJi Scraper 网页视觉识别

最新推荐文章于 2024-06-07 09:55:23 发布

RabinRow

最新推荐文章于 2024-06-07 09:55:23 发布

阅读量470

点赞数

原文链接：http://www.cnblogs.com/zhupingqi/p/9986867.html

版权

网页设计师在设计网页的过程中，往往会考虑页面的视觉结构，这使得使用者可以快速分辨出网页不同区域(RuiJi Scraper的数据块，数据片，元数据就是基于此所定义)。在大多数的网页中，页面中的不同的区域会通过横向或纵向布局，布局块边距等来达到视觉识别目的。以如下页面为例：

从整体上来看，该页面分为导航区，搜索结果区，热词区。每个区域内还有区域划分，例如搜索结果区的每个搜索结果还分为文本区和缩略图区。这种结构良好的页面，通过视觉识别算法可以将不同区域的内容自动识别出来。

下面我们来介绍RuiJi Scraper网页视觉识别功能的使用。我们同样也上面的页面为例。

1. 首先打开搜狗微信搜索，搜索任意关键词，到搜索结果页面

2. 打开RuiJi Scraper抽取面板，视觉识别位于公共选项卡第一项

这里面的选项为过滤条件，视觉识别出的元素可能很多，我们只对其中一部分感兴趣，选项的默认值所表示如下：

宽：显示宽度在0像素-1024像素之间的Dom

高：显示高度在0像素-1024像素之间的Dom

深度：Dom树深度，显示深度0-深度50

子块：具有大于等于5的子块

重组：根据class或path重组数据，适合部分结构不太良好的页面

移除相同数据：如果某列识别出的数据完全一样，该列将不再结果中展示

3. 点击识别按钮

4. 观察识别结果

这里的5:0的意义为冒号前为深度，冒号后面为序号，深度可以用来重新设置深度过滤条件，序号仅是编号。

5. 点击识别出的区域上面的编号

6. 查看识别结果

这看着有些挤，但是您可以将面板停靠在页面下端来观看抽取结果，或者直接使用导出按钮，导出结果后查看。

转载于:https://www.cnblogs.com/zhupingqi/p/9986867.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。