Python自动搜索关键词采集信息—以京东为例！

最新推荐文章于 2024-07-02 15:31:17 发布

Python资深程序员

最新推荐文章于 2024-07-02 15:31:17 发布

阅读量1.1k

点赞数

分类专栏： Python 文章标签： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Pythoncxy/article/details/100100435

版权

本文通过一个案例介绍了如何使用Python进行自动搜索关键词并在京东网站上采集商品信息。步骤包括定义规则、设置连续动作、创建输入和点击动作、定义二级规则以及抓取数据。通过集搜客网络爬虫工具，实现了从搜索到采集的自动化过程。

摘要由CSDN通过智能技术生成

一、操作步骤

如果网页上有搜索框，但是搜索结果页面没有独立网址，想要采集搜索结果，直接做规则是采集不到的，要先做连续动作（输入+点击）来实现自动输入关键词并搜索，然后才能采集数据。下面用京东搜索为例，演示自动搜索采集，操作步骤如下：

二、案例规则+操作步骤

第一级采集规则：连续动作_京东搜索
第二级采集规则：京东空调列表
样本网址： https://list.jd.com/list.html?cat=737,794,870
采集内容：京东商品的名称、价格、链接

注意：本案例京东搜索是有独立网址的，对于具有独立网址的页面，最简单的方法就是构造出每个关键词的搜索网址，然后把线索网址导入到规则里，就可以批量采集，而不是设置连续动作

第一步：定义第一级规则

1.1打开集搜客网络爬虫，输入网址并Enter，加载出网页后再点击“定义规则”按钮，看到一个浮窗显示出来，称为工作台，在上面定义规则；

注意：这里的截图和文字说明都是集搜客网络爬虫版本，如果您安装的是火狐插件版，那么就没有“定义规则”按钮，而是应该运行MS谋数台

1.2在工作台中输入一级规则的主题名，再点击“查重”，提示“该名可以使用”或“该名已被占用，可编辑：是”，就可以使用这个主题名，否则请重命名。

最低0.47元/天解锁文章

Python资深程序员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。