![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
软件设计
文章平均质量分 80
coder1479
Coding Architect.
展开
-
简单爬虫设计(六)——原始网页数据存储方案选择
在具体实现一个生产环境可用的网络爬虫时,有一个问题几乎是无法绕过的,那就是网页原始数据的存储。原创 2022-01-17 20:54:59 · 1755 阅读 · 0 评论 -
简单爬虫设计(五)——重构爬虫控制流程
重构了爬虫的控制逻辑代码,解决了函数职责不清,层次不清晰等代码坏味道。原创 2022-01-07 19:20:02 · 463 阅读 · 0 评论 -
简单爬虫设计(四)——管理爬虫内部状态
这篇文章开始讨论爬虫crawler的具体实现,首先讨论爬虫内部维护的数据结构。原创 2022-01-06 22:41:15 · 1079 阅读 · 3 评论 -
简单爬虫设计(三)——确定需要处理的网页范围
需要处理的网页范围,确定了爬虫遍历的过程中,哪些网页需要保存并处理,是爬取任务的组成部分。原创 2022-01-05 20:26:26 · 583 阅读 · 0 评论 -
简单爬虫设计(二)——如何建模爬虫的爬取范围
爬取范围是爬虫的输入,是爬取任务的一部分。爬取范围作为统一语言的一部分,可以让软件模型更易读。原创 2022-01-04 21:22:14 · 771 阅读 · 0 评论 -
简单爬虫设计(一)——基本模型
本文记录了一个简单的网页爬虫的设计过程。设计过程主要采用面向对象设计思想,并包含了示例代码。原创 2022-01-03 20:08:41 · 1982 阅读 · 0 评论