流数据期末复习题

最新推荐文章于 2022-07-28 17:28:25 发布

Lora青蛙

最新推荐文章于 2022-07-28 17:28:25 发布

阅读量475

点赞数 1

分类专栏：流数据分析技术

本文链接：https://blog.csdn.net/LoraRae/article/details/118033993

版权

流数据分析技术专栏收录该内容

7 篇文章 10 订阅

订阅专栏

1.流数据的存储技术都有哪些，至少写出3种，每种举一个例子（10分）
键-值存储：Redis、Cassandra，文档存储：MongoDB，分布式哈希存储：Cassandra，云数据库：阿里云RDS（每种3分）

2.请介绍Kafka和Flume两种流数据采集系统，并对二者进行比较。（15分）
答：在容错性上，Kafka，Agent可通过collector自动识别机制获取可用collector。Store自己保存已经获取数据的偏移量，一旦collector出现故障，可根据偏移量继续获取数据；
Flume，Agent和collector，collector和store之间均有容错机制，且提供了三种级别的可靠性保证。（5分）在负载均衡、可扩展性等具有相同点。（5分）Kafka的agent，用户需根据Kafka提供的low-level和high-level API自己实现；Flume提供各种非常丰富的agent。Kafka的collector使用了sendfile，zero-copy等技术提高性能；Flume系统提供了很多collector，直接可以使用。（5分）

3．如果你来设计一个检索网站，用户能够在几千万份复杂文档数据中检索出所需要的文档数据。随着网站的发展，数据服务器由10台增长为100台，网站几乎每天都会出现问题，导致整个分布式系统崩溃。如何将ZooKeeper应用于该网站，保证分布式系统中数据的最终一致性以及服务的高可用性，以解决出现的分布式系统崩溃的问题。（15分）
（1）为什么使用ZooKeeper能够保证数据的最终一致性以及服务的高可用性。（5分）
（2）如何部署ZooKeeper，能够保证高可用？（5分）
（3）请阐述ZooKeeper在该检索网站中的应用，可画图说明。（5分）
答：ZooKeeper作为当今最流行的分布式系统应用协调框架，采用ZAB协议的最大目标就是建立一个高可用可扩展的分布式数据主备系统。即在任何时刻只要leader发生宕机，都能保证分布式系统数据的可靠性和最终一致性。（5分）
为了保证高可用，最好是以集群形态来部署ZooKeeper，这样只要集群中大部分机器是可用的（能够容忍一定的机器故障），那么Zookeeper本身仍然是可用的。客户端在使用 ZooKeeper 时，需要知道集群机器列表，通过与集群中的某一台机器建立 TCP 连接来使用服务，客户端使用这个TCP链接来发送请求、获取结果、获取监听事件以及发送心跳包。如果这个连接异常断开了，客户端可以连接到另外的机器上。（5分）
将ZooKeeper应用于该检索网站，数据服务器上下线时，检索服务器能够动态感知。检索服务器在检索前，从内存中取得的数据服务器列表将是最新的、可用的。即使在刷新时间差内取到了掉线的数据服务器也没关系，最多影响本次查询，而不会拖垮整个集群。（5分）

4．请设计一个实时交通系统来规划导航路线的流计算平台。（20分）
（1）基于各类数据采集平台的比较，如何实现数据的采集？（4分）
（2）如何实现分布式系统和可靠性的保证？（4分）
（3）数据处理的过程如何设计？（4分）
（4）数据存储方式的选择。（4分）
（5）数据交付方式的设计。（4分）
车联网是典型的流数据应用场景，使用flume采集刷新的GPS位置信息。（4分）第3代数据流程系统的最新成员Kafka和Flume。它们在很大程度上摒弃了排序语义，同时仍然保留了分布式系统和可靠性保证的概念。这使得它们几乎可以提高几乎所有应用的性能。（4分）使用Storm等流数据处理框架，一方面可以满足海量数据实时分析的需求，另一方面针对海量价值比较低的数据进行预处理再存储，可以有效节省存储空间，有利于提高后续对数据处理的效率。（4分）实时流数据存储选择“NoSQL”最主要的原因是性能优先，不是传统关系数据库所要求的ACID特性（原子性、一致性、隔离性、持久性）优先。（4分）在数据交付环节，更新Web页面的一个略快版本是使用多数Web浏览器带有的XMLHttpRequest（XHR）属性，将数据而不是数据镜像加载到浏览器。目前使用的有两个标准：服务器推送事件（Server Sent Event，SSE）和Web Socket。通过将数据发送到客户端，应用程序还可以利用内置在Web浏览器中的数据渲染组件：可伸缩矢量图（Scalable Vector Graphics，SVG）和Canvas绘图。（4分）

5．请介绍Kafka高吞吐量消息机制中的4个核心API，并结合下图，解释Kafka快在哪里，为何能做到每秒钟处理10W条消息。（20分）

在这里插入图片描述

生产者（producer）：负责选择将哪个记录分配给主题中的哪个分区，允许应用程序将记录流发布到一个或多个Kafka主题。
消费者（customer）：向Kafka broker读取消息的客户端，允许应用程序订阅一个或多个主题，并处理为其生成的记录流。
流生成器（stream processor）:允许应用程序充当流处理器，从一个或多个主题使用输入流，并将输出流生成为一个或多个输出主题，从而有效地将输入流转换为输出流。
连接器（connector）:允许构建和运行将Kafka主题连接到现有应用程序或数据系统的可重用生产者或消费者。（16分）
传统模式下我们从硬盘读取一个文件是：先复制到内核空间（read是系统调用，放到了DMA，所以用内核空间），然后复制到用户空间(1,2)；从用户空间重新复制到内核空间（socket是系统调用，所以它也有自己的内核空间），最后发送给网卡（3、4）
Zero Copy中直接从内核空间（DMA的）到内核空间（Socket的），然后发送网卡。
Kafka把所有的消息都存放在一个一个的文件中，当消费者需要数据的时候Kafka直接把“文件”发送给消费者。这就是秘诀所在，比如：10W的消息组合在一起是10MB的数据量，然后Kafka用类似于发文件的方式直接扔出去了，如果消费者和生产者之间的网络非常好，10MB可能只需要1s。Kafka每秒钟处理了10W条消息。（4分）

Lora青蛙

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
流数据期末复习题

1.流数据的存储技术都有哪些，至少写出3种，每种举一个例子（10分）键-值存储：Redis、Cassandra，文档存储：MongoDB，分布式哈希存储：Cassandra，云数据库：阿里云RDS（每种3分）2.请介绍Kafka和Flume两种流数据采集系统，并对二者进行比较。（15分）答：在容错性上，Kafka，Agent可通过collector自动识别机制获取可用collector。Store自己保存已经获取数据的偏移量，一旦collector出现故障，可根据偏移量继续获取数据；Flume，Ag
复制链接

扫一扫

专栏目录