大数据篇：Lambda架构和Kappa架构（上）

本文链接：https://blog.csdn.net/qq_41373246/article/details/105739533

大数据篇：Lambda架构和Kappa架构（上）

大家好，我是辰，好久没有更新文章了，今天我们来讲讲Lambda架构和Kappa架构。

Lambda架构：

在讲解之前我们先来看看这个实际的项目。情况是这样的，一个正运行着的广告精准投放业务，且拥有海量的用户访问行为。现在需要进行用户行为分析俩建立一个模型，然后根据这个模型来投放用户喜好的广告。

这时你应该想到，我们可以使用批处理架构来完成，没错，这确实也是一个很不错的选择。

可是你别忘了，批处理架构有着高延迟的不足，而互联网用户行为的数据往往可以达到Pb或Eb，甚至Zb级别。这种分析挖掘用户行为的任务，往往能耗时好几个小时甚至几天。这样的话，我们根据模型精准投放给特定用户的广告就会有一定延时了。

那我们使用流处理架构来完成是否可以？

在广告精准投放的业务需求下，只用流处理架构会造成忽略了用户的历史网站访问行为，一些异常行为可能会让我们的服务投放错误的广告。

例如，用户A的电脑暂时借给了用户B使用，而用户B浏览了一些新的网站类型（与用户A不同）。这种情况下，我们无法判断用户A实际上是否对这类型的广告感兴趣，所以不能只根据这些新的浏览记录给用户A推送广告。

这时我们应该怎样优化我们的架构呢？接下来我们讲讲今天的主题之一，Lambda架构，或许你就会有启发了。

简介：

Lambda架构（Lambda Architecture）是由Twitter工程师南森·马茨（Nathan Marz）提出的大数据处理架构。这一架构的提出基于马茨在BackType和Twitter上的分布式数据处理系统的经验。

Lambda架构使开发人员能够构建大规模分布式数据处理系统。它具有很好的灵活性和可扩展性，也对硬件故障和人为失误有很好的容错性。

Lambda架构分为三层：批处理层（Batch Layer）、速度处理层(Speed Layer)、服务层(Serving Layer)。

lambda架构图

批处理层：

批处理层存储管理主数据集（不可变的数据集）和预先批处理计算好的视图。

批处理层使用可处理大量数据的分布式处理系统预先计算结果。它通过处理所有已有历史数据来实现数据的准确性。这意味着它是基于完整的数据集来重新计算的，能够修复任何错误，然后更新现有的数据视图。输出通常存储在只读数据库中，更新则完全取代现有的预先设计好的视图。

速度层：

速度层会实时的处理inlaid的大数据。

速度层通过提供最新数据的实时视图来最小化延迟。速度层所生成的数据视图可能不如批处理层最终生成的视图那般准确或者完整，但它们几乎在收到数据后立即可用。而当同样的数据在批处理层处理完成后，在速度层的数据就可以被替代掉了。

本质上，速度层弥补了批处理层所导致的数据视图滞后。比如说，批处理层的每个人物都需要1小时才能完成，而在着1小时里，我们是无法获取批处理层最新任务给出的数据视图的。而速度层因为能够实时处理数据给出结果，就弥补了这1小时的滞后。

服务层：

所有在批处理层和速度层处理完的结果都输出存储在服务层中，服务层通过返回预先计算的数据视图或最从速度层处理构建好数据视图来响应查询。

回到刚刚的问题。我们如何既能实时分析用户新的网站浏览行为又能兼顾到用户的网站浏览行为历史呢？没错，那就是Lambda架构。

所有的用户行为数据都可以同时流入批处理层和速度层。批处理层永久保存数据并且对数据进行预处理，得到我们想要的用户行为模型写入服务层。而速度层也同时对用户行为数据进行处理，得到实时的用户行为模型。

而当”应该对用户投放什么样的广告“作为查询（Query）来到时，我们从服务层既查询服务层中保存好的批处理输出模型，也对速度层中处理的实时行为进行查询，这样我们就可以得到一个完整的用户行为历史了。

接下来我们讲讲生活中的用例

智能停车案例分析

生活在大城市中，我们常常面临找停车位这一大难题，特别是周末，外出游玩，可能绕个几十分钟才能找到停车位。

这时，如果有一款智能停车App那不是美哉？

我们来梳理一下我们可以利用到的大数据。

首先是可用拿到各类停车场的数据，这类数据的实时性虽然不一定高，但是数据的准确性高。那么我们能不能只通过这类大数据推荐停车位呢？

我来给你举个极端的例子。假设在一个区域有三个停车场，停车场A现在只剩一个停车位了。而停车场B和C还有很多停车位。而在这个时候距离停车场A比较近的位置有10位车主在使用这套系统寻求推荐停车位。如果只通过车主和停车场的距离和停车场剩余停车位来判断的话，系统很有可能会将这个只剩下一个停车位的停车场A推荐给这10个用户。

车辆分布图