Designing Data-Intensive Application《数据密集型应用系统设计》笔记

本文是Designing Data-Intensive Application的读书笔记,主要探讨数据系统的基石——可靠性、可扩展性和可维护性。内容涵盖了系统的故障容忍、负载参数、延迟、响应时间、扩展性策略以及数据模型与查询语言的基础。书中强调了响应时间的百分位点在服务级别目标中的重要性,以及声明式查询语言的优势。此外,还介绍了日志结构和面向页面的存储引擎,以及索引和数据存储的相关概念。
摘要由CSDN通过智能技术生成

Designing Data-Intensive Application 中译《设计数据密集型应用》又名《数据密集型应用系统设计》,我看的是冯若航在gitbook开源的翻译版本,地址是https://vonng.gitbooks.io/ddia-cn/content/。以下为读书笔记。

第一部分第三章开始阅读英文原版。

参考文献可见https://github.com/ept/ddia-references

第一部分 数据系统的基石

第1章 可靠性、可扩展性、可维护性

  1. 可靠性(Reliability):系统在困境(adversity)(硬件故障、软件故障、人为错误)中仍可正常工作(正确完成功能,并能达到期望的性能水准)
  2. 可扩展性(Scalability):有合理的办法应对系统的增长(数据量、流量、复杂性)
  3. 可维护性(Maintainability):​ 许多不同的人(工程师、运维)在不同的生命周期,都能高效地在系统上工作(使系统保持现有行为,并适应新的应用场景)
  4. 造成错误的原因叫做故障(fault),能预料并应对故障的系统特性可称为容错(fault-tolerant)或韧性(resilient);在讨论容错时,只有谈论特定类型的错误才有意义。
  5. 负载 - 负载参数
  6.  对于Hadoop这样的批处理系统,通常关心的是吞吐量(throughput),即每秒可以处理的记录数量,或者在特定规模数据集上运行作业的总时间;理想情况下,批量作业的运行时间是数据集的大小除以吞吐量。 在实践中由于数据倾斜(数据不是均匀分布在每个工作进程中),需要等待最慢的任务完成,所以运行时间往往更长。
  7. 延迟(latency) 和 响应时间(response time) 经常用作同义词,但实际上它们并不一样。响应时间是客户所看到的,除了实际处理请求的时间( 服务时间(service time) )之外,还包括网络延迟和排队延迟。延迟是某个请求等
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值