![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Liang_DJ
目前感兴趣的方向: 大数据&机器学习。持续学习积累中。
展开
-
大数据处理平台简介和总结
大数据处理平台简介和总结原创 2019-05-05 11:37:08 · 4400 阅读 · 0 评论 -
分布式系统中的服务等级协议SLA
SLA(Service-Level Agreement),服务等级协议,指的是系统服务提供者对客户的一个承诺。用来衡量一个分布式系统的好坏程度。最常用的SLA指标:可用性、准确性、系统容量和延迟。1.可用性(Availability)可用性指的是系统服务能正常运行所占的时间百分比。“99.9%”指的是一天系统服务将会有大约86秒(24×60×60×0.00124\times60\times...原创 2019-07-03 17:03:26 · 1433 阅读 · 0 评论 -
分布式系统三大指标:可扩展性、一致性、持久性
1. 可扩展性增加系统容量的模型有以下两种。(1) 水平扩展即在现有的系统中增加新的机器节点(2) 垂直扩展不增加新的机器节点,而是提升现有机器的性能,如增加内存2. 一致性强一致性弱一致性最终一致性顺序一致性因果一致性读写一致性实际中,最终一致性应用最广,而强一致性比较难实现。3. 持久性数据的持久性:想提高数据持久性,通常的做法是数据复制。消息持久性:分布式系统...原创 2019-07-09 16:56:40 · 3735 阅读 · 0 评论 -
Workflow设计模式总结
1. 复制模式(Copier Pattern)复制模型通常将单个数据处理模块的数据,完整地复制到两个或以上地数据处理模块。2. 过滤模式(Filter Pattern)过滤模型是过滤掉不符合特定条件的数据。3. 分离模式(Splitter Pattern)分离模型指不丢弃数据,而是把数据分类称不同的类别来进行处理。4. 合并模型(Joiner Pattern)合并模型指将多个数据集集...原创 2019-07-09 17:16:12 · 643 阅读 · 0 评论 -
Spark中的弹性分布式数据集RDD
Spark中的最基本的数据抽象就是RDD(Resilient Distributed Dataset, 弹性分布式数据集)原创 2019-07-16 15:54:37 · 393 阅读 · 0 评论