祈人之忧-CSDN博客

原创 Flink

Apache Flink是2014年12月份诞生的一个流计算引擎，是一个用于在无界和有界数据流上进行有状态计算的框架和分布式处理引擎。Flink被设计成在所有常见的集群环境中运行，以内存速度和任何规模执行计算。

2021-07-25 16:20:44 537

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2021-07-25 15:55:21 543

原创 HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”

2021-07-10 16:04:45 510 1

原创 Kafka

Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。

2021-06-27 19:29:08 551 1

原创 Zookeeper

Apache ZooKeeper是Apache软件基金会的一个软件项目，大数据集群服务器的管理者协调者。

2021-06-27 16:49:45 664

原创 Sqoop

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导到Hadoop的HDFS中，也可以将HDFS的数据导到关系型数据库中。

2021-06-27 16:34:06 102

原创 Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。

2021-06-27 16:27:32 615

原创 Apache Hive

hive是一个基于大数据技术的数据仓库(DataWareHouse)技术，主要是通过将用户书写的SQL语句翻译成MapReduce代码，然后发布任务给MR框架执行，完成SQL 到 MapReduce的转换。可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

2021-06-27 16:05:49 1285 1

原创 MapReduce

MapReduce是hadoop体系下的一种计算模型(计算框架|编程框架),分布式计算框架。主要是用来通过代码，对存储在hdfs上的数据进行读取、统计,分析

2021-06-27 15:33:54 418

原创 HDFS文件系统

HDFS（Hadoop分布式文件系统）全称：Hadoop Distributed File System 说明：HDFS技术属于Hadoop内的一个子技术。作用：解决海量数据存储问题---分布式文件系统(多台计算机存储)，突破单体服务器的存储能力。

2021-06-27 14:44:16 1638

qirenzhiyou的博客