一、操作步骤
如果网页上有搜索框,但是搜索结果页面没有独立网址,想要采集搜索结果,直接做规则是采集不到的,要先做连续动作(输入+点击)来实现自动输入关键词并搜索,然后才能采集数据。下面用京东搜索为例,演示自动搜索采集,操作步骤如下:
二、案例规则+操作步骤第一级采集规则:连续动作_京东搜索
第二级采集规则:京东空调列表
样本网址:https://list.jd.com/list.html?cat=737,794,870
采集内容:京东商品的名称、价格、链接
注意:本案例京东搜索是有独立网址的,对于具有独立网址的页面,最简单的方法就是构造出每个关键词的搜索网址,然后把线索网址导入到规则里,就可以批量采集,而不是设置连续动作,可以参考《如何构造网址》和《如何管理规则的线索》。
第一步:定义第一级规则
1.1打开集搜客网络爬虫,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来&