大数据
文章平均质量分 94
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
we.think
一种新技术一旦开始流行,你要么坐上压路机,要么成为铺路石
展开
-
大数据之Kappa架构
目录一、Kappa架构二、Kappa处理过程三、Kappa优缺点3.1 Kappa架构优缺点3.2 Lamda和Kappa架构优缺点Kappa架构是由LinkedIn的前首席工程师杰伊·克雷普斯(Jay Kreps)提出的一种架构思想。克雷普斯是几个著名开源项目(包括Apache Kafka和Apache Samza这样的流处理系统)的作者之一。Kreps 提出了一个改进 Lambda 架构的观点:通过改进Lambda架构中的Speed Layer,使它既能够进行实时数据处理,同时也有能力在业务逻辑原创 2021-03-14 10:43:56 · 2244 阅读 · 2 评论 -
大数据之Lamda架构
目录一、架构的重要特征Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm,Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成。Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构,包括有高容错、低延时和可扩展等。Lambda架构整合离线计算和实时计算,融合不可变性(Immunability),读写分离和复杂性隔离等一系列架构原则,可集成Hadoop、Kafka、St原创 2021-03-07 23:26:56 · 800 阅读 · 2 评论 -
大数据之MPP架构
目录一、对称多处理器架构二、非一致性存储访问架构三、海量并行处理架构3.1 NUMA与MPP的区别3.2 MPP DB从并行/平行计算系统内存架构来看,目前商用服务器大体可以分为三类,即对称多处理器架构(SMP:Symmetric Multi-Processor),非一致性存储访问架构(NUMA:Non-Uniform Memory Access),以及海量并行处理架构(MPP:Massive Parallel Processing)。一、对称多处理器架构对称多处理器(Symmetric Multi-原创 2021-01-31 14:10:25 · 4273 阅读 · 2 评论 -
大数据任务调度之Azkaban
目录一、适用场景二、架构2.1 元数据2.2 AzkabanWebServer2.3 AzkabanExecutorServer三、作业流执行过程四、Azkaban架构的三种运行模式五、使用5.1 创建项目5.2 上传项目5.3 工作流视图5.4 项目权限5.5 执行流程视图5.5.1 失败通知5.5.2 电子邮件覆盖*5.5.3 故障选项5.5.4 并发选项5.5.5 工作流选项5.6 执行5.7 执行页面6.8 历史页5.9 计划流程5.10 SLA5.11 任务页面5.12 任务编辑5.13 工作历史原创 2020-09-21 08:17:00 · 1766 阅读 · 0 评论