如何快速准确配置采集规则

很多采集工具使用时,最让人头疼的地方肯定有采集规则的配置,需要去查看网页的源代码,研究提取出相应采集区域的规则代码,这让很多人,尤其是新手和不懂代码的人压力山大望而却步,需要花费大量时间去配置,复杂且效率低;

其实没必要浪费时间和精力在这个上面的,有更高效更符合人性化的采集工具可以解决这个问题的。

简数采集器支持可视化鼠标点选生成采集规则,解决你的烦恼,操作十分简单,基本半小时就能上手和掌握了:需要采集哪个区域,直接用鼠标去点击即可,完全不用懂代码的。

系统还会先智能帮你配置采集规则,如果符合你需求的,直接就可以启动开始采集了。

1. 例子示意

在采集器的右侧提取器窗口内,用鼠标就可以点选生成采集规则,鼠标移动过程中会出现红色的框,提示这是可以点选的区域,当框住想要采集的内容时,点击鼠标左键便会固定变成绿色框,表示绿色框中的内容已被当前字段选中为要采集的内容。此时左侧的数据预览可以查看到获取的部分内容,只是显示部分的,点击数据预览按钮,就能查看全部的。

2. 小技巧

这里还有个小技巧,如果在详情页提取器点选某些字段的内容时,鼠标点选时很难定位到想要的内容(框不到想要的范围),可以先选择目标内容中更小块的区域,然后再去点击【扩大点选区域】按钮,直至得到想要的内容区域。

有时一次不行,就继续再点击【扩大点选区域】按钮继续扩大,直到框选到想要采集的内容。

下面例子,就是先选择正文中的一个段落,然后点选扩大点选区域按钮,绿色选择框即框选到整个正文内容了。

原理(可忽略不看的):

扩大点选区域实际上就是修改‘’当前字段Xpath‘’的值,删除最后一个层级的标签,上面例子就是删去最后的  /p[1]  ,然后扩大了选择的区域,就获取到需要的内容区域。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值