Designing Data-Intensive Application《数据密集型应用系统设计》笔记

我想唱歌给你听

于 2020-10-19 23:57:51 发布

阅读量2.5k

点赞数

分类专栏：杂

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Edison666/article/details/109169843

版权

本文是Designing Data-Intensive Application的读书笔记，主要探讨数据系统的基石——可靠性、可扩展性和可维护性。内容涵盖了系统的故障容忍、负载参数、延迟、响应时间、扩展性策略以及数据模型与查询语言的基础。书中强调了响应时间的百分位点在服务级别目标中的重要性，以及声明式查询语言的优势。此外，还介绍了日志结构和面向页面的存储引擎，以及索引和数据存储的相关概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Designing Data-Intensive Application 中译《设计数据密集型应用》又名《数据密集型应用系统设计》，我看的是冯若航在gitbook开源的翻译版本，地址是https://vonng.gitbooks.io/ddia-cn/content/。以下为读书笔记。

第一部分第三章开始阅读英文原版。

参考文献可见https://github.com/ept/ddia-references

第一部分数据系统的基石

第1章可靠性、可扩展性、可维护性

可靠性（Reliability）：系统在困境（adversity）（硬件故障、软件故障、人为错误）中仍可正常工作（正确完成功能，并能达到期望的性能水准）
可扩展性（Scalability）：有合理的办法应对系统的增长（数据量、流量、复杂性）
可维护性（Maintainability）：许多不同的人（工程师、运维）在不同的生命周期，都能高效地在系统上工作（使系统保持现有行为，并适应新的应用场景）
造成错误的原因叫做故障（fault），能预料并应对故障的系统特性可称为容错（fault-tolerant）或韧性（resilient）；在讨论容错时，只有谈论特定类型的错误才有意义。
负载 - 负载参数
对于Hadoop这样的批处理系统，通常关心的是吞吐量（throughput），即每秒可以处理的记录数量，或者在特定规模数据集上运行作业的总时间；理想情况下，批量作业的运行时间是数据集的大小除以吞吐量。在实践中由于数据倾斜（数据不是均匀分布在每个工作进程中），需要等待最慢的任务完成，所以运行时间往往更长。
延迟（latency） 和 响应时间（response time） 经常用作同义词，但实际上它们并不一样。响应时间是客户所看到的，除了实际处理请求的时间（ 服务时间（service time） ）之外，还包括网络延

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。