数据密集型应用系统的设计

最新推荐文章于 2024-04-25 01:23:15 发布

m0_37815733

最新推荐文章于 2024-04-25 01:23:15 发布

阅读量658

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/m0_37815733/article/details/121064470

版权

数据系统基础

数据模型与查询语言

程序的核心是数据模型。

应用程序员观察周围的世界，通过对象和数据结构以及数据结构上的操作来对现实世界建模。存储这些数据结构要用通用数据模型，比如json文档数据模型，关系数据模型甚至图模型。

数据库程序员要考虑如何用内存，磁盘或网络字节来表示通用数据模型，以及提供一套简单的操作API。

硬件工程师需要考虑如何在各种硬件上实现字节，如电脉冲，光脉冲等。

每层都需要抽象一个简洁的数据模型和基于模型的API来对问题建模。

关系模型与文档模型

关系模型支撑了现在大部分的应用程序。首先是其提供的关系模型能很好的对业务问题进行建模并且规范化理论通过消除冗余来解决不一致的问题；另外对事物的支持也很重要，尤其是对于商务系统；当数据量变大的时候，索引又提供了不错的读写性能。

本节先从数据模型建模的角度对比关系模型和文档模型（以json为例）。

关系模型可以很简洁的表示一对多和多对多的关系，并且可以通过外键join起来进行联合查询。另外可以通过规范化理论消除重复来解决数据不一致的风险。但关系模型的问题是对象-数据不匹配，所以常常需要复杂的转化层，比如用来表示简历就很难受；并且面对超大数据集，超高的写入量其实扩展性不好，比如没人会用关系数据库存放训练集。

文档模型最大的优点是模式灵活性，跟对象模式上很近，所以表示简历很适合。文档数据库引入了引用，可以表示一对多和多对多的关系，但不如关系模型简洁。

文档数据库模式与对象贴近，局部性好，比如当训练集很合适。关系模型能更简洁的表示多对一和多对多的关系，join能力强，应对复杂情况可能更厉害。怎么简单怎么来，也可以联合使用它们。

数据查询语言

数据查询语言说的就是SQL，这是一种声明式编程。像java那种是命令式编程，每一步都要控制；如果写个sql则由优化器来控制整个过程如何执行。就像HiveSQL一样，写的每一个sql语句都会由存储引擎转化为MR任务，但对用户而言这提供了非常简洁的接口。

数据检索与存储

本节讨论数据存储格式和索引。索引是为了加快搜索引入的派生数据。

首先讨论一个key-value数据库的实现，已追加的方式来记录修改（快），同时通过HsahMap来建立索引。但这种方式的挑战在于HashMap可能大过内存，日志可能用尽磁盘。索引将日志分段，内存中的日志达到阈值就存到磁盘作为一个段，作为存储段可以压缩与合并，这样就避免了无效记录用尽磁盘；同时为每个段建立哈希索引，这样Hashmap也不至于太大。搜索时倒着向前搜索HashMap就可以了，段不会太多。

现在对段结构加以限制，每个段必须保证段中的key有序排列并且每个key唯一，叫SSTable（string sorted）。对于内存中未写入磁盘的段，可以用红黑树组织保证这一特性，大小达到阈值就存储为SSTable。这种结构内存写入很快，跟追加无异；同时每个存储段是按key有序且唯一，那么我可以同时多路归并来加快压缩合并的效率，这样段不会太多；为每个段建立哈希索引时不是每个key都需要维护，每几千个字节一个就可以了，可以让HashMap稀疏一些。读取时先去红黑树读，再往前找下一个索引读下一个段。这种结构使key-value数据库表现非常好。

数据编码与演化

概念

系统演进过程中需要滚动升级，那么就必须保证新代码可以读取旧模式的数据（向后兼容），并且新模式的数据可以被旧代码读取（向前兼容）。

程序中数据有两种表示形式，一种是内存中基于指针的各种数据结构（数组，列表，树等），另一种是文件和网络中的字节流。内存到文件是编码，文件到内存是解码。

本章主要讨论各种编码方式及其向前向后兼容性。

各类编码方式对比

编码方式	示例	优点	问题
语言特定格式	java.io.Serializable		与特定语言绑定有安全问题
JSON和XML （文本数据格式）	数据交换格式，尤其是JSON	跨编程语言，并且相对简单	数字编码有模糊之处对Unicode支持很好，但不支持二进制字符串，需要使用Base64将二进制编码为字符串二进制编码时需要把字段名称编码进去，压缩效果不好
Thtift和Protocol Buffers （带模式的二进制编码）	RPC中使用Thrift编码格式	编码时只编码前面的数字和类型，不编码名称，压缩效果很好基于IDL可以生成各种语言对应的代码当代码读取数据时，如果有不认识的标签号直接抛掉，如果数据比代码少一个字段，只要不是requied也没关系，所以无论新版本是增加还是删除字段，都有很好的向前向后兼容性(在IDL中的requied光影响生成的代码，不影响数据编码)	改变类型时注意丢失精度
Avro	Hadoop