大数据
文章平均质量分 74
努力的小星星
这个作者很懒,什么都没留下…
展开
-
大数据组件之Azkaban简介
一、Azkaban 介绍1.1 背景一个完整的大数据分析系统,必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成,所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题:如何定时调度某个任务? 如何在某个任务执行完成后再去执行另一个任务? 如何在任务失败时候发出预警? ......面对这些问题,工作流调度系统应运而生。Azkaban 就是其中之一。1.2 功能Azkaban 产生于 LinkedIn,并经过多年生产环境的检验,它具转载 2021-11-30 12:51:26 · 796 阅读 · 0 评论 -
大数据组件之Sqoop简介
简介Sqoop 是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出: 导入数据:从 MySQL,Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中; 导出数据:从 分布式文件系统中导出数据到关系数据库中。 其原理是将执行命令转化成 MapReduce 作业来实现数据的迁移,如下图:初衷Apache Sqoop(TM) 是一种工具,旨在有效地在Apache Hadoop和结构化数据存储(例如关系数据库)之.原创 2021-10-31 13:34:41 · 1376 阅读 · 0 评论 -
大数据组件之日志采集组件:Flume
简介Apache Flume 是一个分布式、高可靠、高可用的系统,用于有效地收集、聚合大量日志数据,并将其从许多不同来源移动到集中式数据存储。Apache Flume 的使用不仅限于日志数据聚合。由于数据源是可定制的,因此 Flume 可用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息以及几乎任何可能的数据源。Apache Flume 是 Apache 软件基金会的顶级项目。环境要求java运行时环境:jdk1.8及以上 内存:为sources, cha原创 2021-09-29 08:51:49 · 449 阅读 · 0 评论 -
大数据组件之HBase简介
HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。产生背景要想明白为什么产生 HBase,就需要先了解一下 Hadoop 存在的限制?Hadoop 可以通过 HDFS 来存储结构化、半结构甚至非结构化的数据,它是传统数据库的补充,是海量数据存储的最佳方法,它针对大文件的存储,批量访问和流式访问都做了优化,同时也通过多副本解决了容灾问题。但是 Hadoop 的缺陷在于它只能执行批处理,并且只能以顺序方式访问数据,这意味着即使是最简单的工作,也必须搜索整个数据集,无法实现原创 2021-08-31 20:14:42 · 387 阅读 · 0 评论 -
大数据组件之Flink简介
一、Flink 简介Apache Flink 是一个分布式的流处理框架,它能够对有界和无界的数据流进行高效的处理。Flink 的核心是流处理,同时它也能支持批处理,Flink 将批处理看成是流处理的一种特殊情况,即数据流是有明确界限的。这和 Spark Streaming 的思想是完全相反的,Spark Streaming 的核心是批处理,它将流处理看成是批处理的一种特殊情况, 即把数据流进行极小粒度的拆分,拆分为多个微批处理。Flink 有界数据流和无界数据流:Spark Streamin转载 2021-07-30 08:06:12 · 1132 阅读 · 0 评论 -
大数据组件之Storm简介
简介Storm是一个开源的分布式实时计算框架。特点支持水平横向扩展 高容错性,通过ack机制每个消息都不丢失(好奇该特性如何实现) 处理速度快,每个节点每秒处理超过一百万个元组(tuples)其他各编程语言支持友好 支持本地模式 支持图形化界面管理与其他计算框架比较MapReduce(Hadoop家族组件):批处理,适合海量离线处理场景 Spark Streaming:并非真正意义上的流处理,而是微批处理,对数据流进行极小粒度的拆分,近似达到流处理的效果(微分原理) Fl原创 2021-06-30 20:07:05 · 2595 阅读 · 1 评论 -
大数据组件之Spark简介
简介Apache Spark是一个统一的分析引擎,用于大规模数据处理。相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduce 之后,最为广泛使用的分布式计算框架。它为Java,Scala,Python和R以及支持一般执行图的优化引擎提供高级API。它还支持丰富的高级工具集,包括SQL和结构化数据处理的Spark SQL,MLLIB用于机器学习,图形处理的Graphx,以及用于增量计算和流处理的结构化流。架构Spark应用程序在原创 2021-05-31 18:48:54 · 284 阅读 · 1 评论 -
Hadoop组件之YARN架构及工作原理
YARN介绍A framework for job scheduling and cluster resource management.一个任务调度和集群资源管理框架Apache YARN是Hadoop2.0引入的集群资源管理系统,用户可以将各种服务框架部署在YARN上,由YARN进行统一管理和资源分配。架构YARN的基本思想是将资源管理和作业调度/监视的功能拆分为单独的守护程序,也就是拥有一个全局ResourceManager(RM)和每个应用程序的ApplicationMaster原创 2021-03-31 13:42:43 · 289 阅读 · 1 评论 -
Hadoop组件之MapReduce作用及设计原理
介绍设计初衷架构原创 2021-02-28 17:34:12 · 1950 阅读 · 0 评论 -
Hadoop组件之HDFS作用及设计原理
介绍Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.HDFS是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。设计初衷硬件故障容错性:检测故障并从故障中快速自动恢复是HDFS的核心架构目标 流式数据访问友好性:首要能力是提高数据的吞吐率而非低延迟.原创 2021-01-30 15:40:22 · 1682 阅读 · 3 评论 -
小白学大数据之开篇
为了拓宽眼界,学习这个系列的想法由来已久,借着年初立flag的机会,决定将此事提上日程。接下来,将从纯小白的第一视角,开始大数据的基本认知体系构建,每个部分的学习方式均按why-how-what的思路进行展开。先列出第一步学习大纲初识大数据之大数据概念为何场景提出? 初识大数据之如何进行大数据体系学习 初识大数据之大数据学习路线初拟定计划列好之后,接下来开始进行各部分的逐个击破Hadoop组件之HDFS作用及设计原理 Hadoop组件之MapReduce作用及设计原理 Hadoop原创 2021-01-28 07:44:11 · 152 阅读 · 0 评论