XianyuSdd
爬取闲鱼某关键字实时信息,将最新的发送到钉钉群聊
写了一个异步爬取闲鱼商品最新信息推送到钉钉
图中的需求有两个部分值得学习。
多线程爬取最新关键字的商品信息
python对钉钉的操作
多线程爬取最新关键字的商品信息
这个多线程是依靠关键字的数量,启动线程。比如可以是线程数=关键字的数量/5。具体接口参考github组织中的例子,24小时采集 然后将线程加入到while True中。关键字与价格区间可以在闲鱼接口链接中自定义。
python对钉钉的操作
针对钉钉是一个很好的信息传输方式,钉钉的开发文档详细讲述了如何调用钉钉的api。
注册钉钉账号
手机创建钉钉组织
用自己创建的组织登录桌面版的钉钉应用(要用自己创建组织的钉钉才能登录带有自己权限的管理后台-web端亦是如此)
创建群聊。在群聊中找到机器人,自定义机器人,找到webhook(这便是钉钉的发送信息的api)
虽然没有python版的介绍。可是api是通用的。api介绍也是很丰富。
推荐看下web版的后台管理,这是一个很好的开发场地。
如何知道获取最新的商品数据
使用数据库,将爬取商品的详情链接存储到数据库中,每次判断数据库中是否有此商品链接数据,若存在,便不是最新。若不存在,推送到钉钉群,然后数据插入数据库。
优化数库的存储方式
暂停与开始
这个方面我没有深入思考,简单的把关键字存到数据库中,没一次线程爬取从数据库中读取现有的数据库关键字。
暂