网页几秒刷新一次_设计网页爬虫（web crawler）

最新推荐文章于 2023-10-11 20:54:24 发布

weixin_39782709

最新推荐文章于 2023-10-11 20:54:24 发布

阅读量587

点赞数

文章标签：网页几秒刷新一次

本文链接：https://blog.csdn.net/weixin_39782709/article/details/111395265

版权

本文参考自：https://github.com/donnemartin/system-design-primer/blob/master/solutions/system_design/web_crawler/README.md

作者也有添加自己想法。

服务：爬一系列URL
1. 生成页面的反向索引（https://en.wikipedia.org/wiki/Reverse_index）与关键词
2. 生成页面标题与缩略图，这些内容是静态的，不会随着搜索而变化
3. 具有高可用性high availability
用户：输入一个搜索关键词，然后可以看到所有相关页面的列表

状态假设

流量不是均匀分布。有些搜索很热门，有些就不是。
只支持匿名用户，换言之，不会存储用户登录信息以及个性化内容。
生成搜索结果应该很快。
网页爬虫不应该死循环。通常，如果URL 链接graph有一个cycle，就会陷入死循环。
1 billion 个URL等待爬取
1. 每个页面应该有规律的被爬取，这样可以保证页面的新鲜。
2. 平均起来，每个页面每周应该被刷新一次，更加流行的网页会刷新的更频繁。每个月会爬取4 million页面。
3. 平均每个页面占据500KB。
每个月会有100million次搜索。

计算使用

关注