流数据分析技术
文章平均质量分 87
Lora青蛙
主不在乎
展开
-
流数据期末复习题
1.流数据的存储技术都有哪些,至少写出3种,每种举一个例子(10分)键-值存储:Redis、Cassandra,文档存储:MongoDB,分布式哈希存储:Cassandra,云数据库:阿里云RDS(每种3分)2.请介绍Kafka和Flume两种流数据采集系统,并对二者进行比较。(15分)答:在容错性上,Kafka,Agent可通过collector自动识别机制获取可用collector。Store自己保存已经获取数据的偏移量,一旦collector出现故障,可根据偏移量继续获取数据;Flume,Ag原创 2021-06-18 21:19:13 · 466 阅读 · 1 评论 -
流数据分析技术笔记6 流数据的存储
文章目录1 一致性哈希2 No SQL与New SQL存储系统3 存储技术选择1 一致性哈希一致性hash是首先计算四个ip地址对应的hash值hash(ip1),hash(ip2),hash(ip3),hash(ip3),计算出来的hash值是0~最大正整数直接的一个值,这四个值在一致性hash环上呈现如下图:user1、user2的请求会落到服务器ip2进行处理,user3的请求会落到服务器ip3进行处理、user4的请求会落到服务器ip4进行处理,user5、user6的请求会落到服务器ip原创 2021-06-18 17:43:32 · 1101 阅读 · 0 评论 -
流数据分析技术笔记5 分布式实时处理系统
文章目录1 分布式流数据处理概述2 Storm分布式实时处理系统3 Samza分布式实时处理系统4 Flink分布式实时处理系统1 分布式流数据处理概述流处理本质上是一种特殊形式的并行计算,它被设计用于数据只能处理一次的情况。这些并行计算环境多数实现在一个不可靠的网络层之上,这样的网络层会引入高得多的错误率。• 协调:流框架的核心,存储用于拓扑处理的相关信息,同时处理一些分区任务,Zookeeper。• 分区和融合:流处理系统的核心元素是分散-收集(scatter-gather)机制的某种实现,流处原创 2021-06-18 16:00:01 · 1038 阅读 · 0 评论 -
流数据分析技术笔记4 流数据流程管理
文章目录1 分布式流数据流程管理2 Kafka的高吞吐量消息机制1 分布式流数据流程管理分布式数据流程的管理出现已久,它涉及数据的处理和采集两种任务,其发展历程为:-内部开发或外包开发的定制应用-建立公共基础架构-跳出最初针对的应用独立使用这类系统中,最早的大概是队列系统,例如21世纪初面世的ActiveMQ。后来就出现了由Facebook这样的大型互联网公司开源出来的系统,2008年发布的Scribe工具就是这一代系统中最著名的一个。目前,由Cloudera开发的Flume以及Linkedin原创 2021-06-18 15:44:14 · 510 阅读 · 1 评论 -
流数据分析技术笔记3 服务配置与协调
服务与协调系统产生分布式系统需要共享某些系统元数据,以及关于分布式系统本身的某些状态:元数据通常是某些配置信息;系统状态通常是用来对应用进行协调的数据;配置和协调系统的研发动机:提供一个系统范围的服务,以便正确、可靠地实现分布式配置和协调原语维护分布式状态不可靠的网络连接策略:进入降级状态;允许其中一个分区保留全部功能,而对其他的分区功能进行降级。时钟同步策略:使用网络定时协议(NTP)进行时钟同步不可靠环境下的一致性策略:Paxos算法(四种角色Proposer提议者、Acceptor决原创 2021-06-18 15:01:58 · 139 阅读 · 0 评论 -
流数据分析技术笔记2 实时流架构设计
文章目录1 实时框架的组件2 实时架构的特性3 实时编程语言4 实时架构概览1 实时框架的组件离线计算和实时计算的区别:离线计算基于已经存在的数据进行计算,一般流程:Sqoop采集数据到HDFS,MapReduce处理HDFS上的数据,将结果写回HDFS实时计算关注数据实时性,处理的是每时每刻产生的数据,一般流程:Flume采集数据,Kafka缓存,Storm进行实时计算,结果存入Redis中,通过echarts等可视化呈现数据采集数据采集通过建立在TCP/IP网络上的连接来进行,通常使用HT原创 2021-06-18 11:13:22 · 390 阅读 · 1 评论 -
流数据分析技术笔记1 流数据简介
主要内容:流数据的处理、分析、算法以及一些处理模型和框架1.1 流数据的来源1.0 大数据大数据概念:大数据技术描述了一个技术和体系更新的新时代,呗设计与从大规模多样化的数据中通过高素捕获、发现和分析技术提取数据的价值3V定义:高容量(Volume)、高度变化(Velocity)、多样化(Variety)传统的数据挖掘方式:抽样的数据、准确的数据建模、精确的处理结果大数据的挖掘方式:精确性不是目标(从抽样到全样、从精确到非精确、从因果到关联)1.1 流数据来源数据(data)是事实或观察的结原创 2021-06-18 11:00:25 · 6150 阅读 · 1 评论