爬虫数据库一些简单的设计逻辑

最新推荐文章于 2024-08-01 15:04:56 发布

weixin_33920401

最新推荐文章于 2024-08-01 15:04:56 发布

阅读量615

点赞数

文章标签：数据库爬虫

原文链接：https://juejin.im/post/5cf5d7206fb9a07f070e1857

版权

场景：爬取某商城的部分商品。

队列设计

这里至少需要爬取2种资源，一种是商品列表，一种是商品信息。所以要设计1条队列，保存商品信息URL。

爬虫1定期爬前N个列表页 URL，把里面的商品信息URL爬下来，保存到队列里。

爬虫2定期从队列中抽出商品信息URL，爬取商品信息，爬完后把该URL移出队列。

所以呢，简单来说，只要有2张表就行了，一张保存队列信息，一张保存商品信息。

何时停止问题

为了避免每次都把所有商品爬一遍，就要在适当的时候停止。爬列表页的时候，一般是设定只爬前 N 页。爬商品信息URL的时候，一般是先检查这个商品是否存在，不存在就入队，存在的话，就表示接下来都是旧数据了，可以停止了。

当然有种情况，就是有些旧的商品，会被人为地置顶，或者排到前面来。

这时候就要设置一个值 M，每次最多爬前 M 个，多了不爬。

数据更新问题：

有新商品进来，直接插入即可，如果是旧商品，那要不要更新数据库里的内容呢？一般来说是可以更新的，但有种情况例外，就是你的数据库会有人去编辑的情况。

如果你的数据库有专人编辑，那么最好不要更新旧商品，因为会覆盖掉编辑的内容。并且，数据表要采用软删除的方式，避免前面的人刚删除了数据，你的爬虫又把数据写进去了。

weixin_33920401

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。