Python自动搜索关键词采集信息—以京东为例!

本文通过一个案例介绍了如何使用Python进行自动搜索关键词并在京东网站上采集商品信息。步骤包括定义规则、设置连续动作、创建输入和点击动作、定义二级规则以及抓取数据。通过集搜客网络爬虫工具,实现了从搜索到采集的自动化过程。
摘要由CSDN通过智能技术生成

一、操作步骤

如果网页上有搜索框,但是搜索结果页面没有独立网址,想要采集搜索结果,直接做规则是采集不到的,要先做连续动作(输入+点击)来实现自动输入关键词并搜索,然后才能采集数据。下面用京东搜索为例,演示自动搜索采集,操作步骤如下:

 

 

 

 

二、案例规则+操作步骤

  • 第一级采集规则:连续动作_京东搜索
  • 第二级采集规则:京东空调列表
  • 样本网址: https://list.jd.com/list.html?cat=737,794,870
  • 采集内容:京东商品的名称、价格、链接

注意:本案例京东搜索是有独立网址的,对于具有独立网址的页面,最简单的方法就是构造出每个关键词的搜索网址,然后把线索网址导入到规则里,就可以批量采集,而不是设置连续动作 

第一步:定义第一级规则

 

 

 

 

 

1.1打开集搜客网络爬虫,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;

注意:这里的截图和文字说明都是集搜客网络爬虫版本,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台

1.2在工作台中输入一级规则的主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值