数据系统
首先讲述了大多数应用都是数据密集型而非 计算密集型,更多的问题来自于 数据量、数据变更速度,列举一些通用组件
- 数据库系统:存储数据;
- 缓存系统:提升读取速度;
- 搜索索引:按照关键字搜索,以及过滤;
- 批处理:定期处理大量的数据
- 流处理:向其他进程发送消息,进行异步处理
这些系统都面临着以下这些共同的问题
可靠性
是指系统在困境中也可以正常工作,讲包括故障和失效
故障
指系统的一部分状态偏离其标准
- 硬件故障:磁盘可以提供 RAID;双路电源;热插拔 CPU 等等可以解决
- 软件故障:系统错误,特定输入引起的 BUG,依赖的服务不可用,响应变慢或者响应错误,级联故障;针对这些错误,作者说仍然有很多小办法,例如仔细考虑系统的假设和交互, 彻底的测试,进程隔离,监控分析生产系统的行为;那么在系统 运行期间就可以不断自检,在出现偏差时报警
- 人为错误:作者说人是不可靠的,但是我们可以精心设计 抽象,制定合理的 API;提供沙箱环境模拟真实场景,使用自动化测试覆盖边缘 case,快速回滚机制,详细的配置和明确的监控。这些可以检查系统哪些地方是否违反了假