BigData
文章平均质量分 93
祈人之忧
不当心满意足的猪,宁做不满足的苏格拉底
展开
-
Flink
Apache Flink是2014年12月份诞生的一个流计算引擎,是一个用于在无界和有界数据流上进行有状态计算的框架和分布式处理引擎。Flink被设计成在所有常见的集群环境中运行,以内存速度和任何规模执行计算。原创 2021-07-25 16:20:44 · 562 阅读 · 0 评论 -
Spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。原创 2021-07-25 15:55:21 · 582 阅读 · 0 评论 -
HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”原创 2021-07-10 16:04:45 · 531 阅读 · 1 评论 -
Kafka
Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。原创 2021-06-27 19:29:08 · 587 阅读 · 1 评论 -
Zookeeper
Apache ZooKeeper是Apache软件基金会的一个软件项目,大数据集群服务器的管理者协调者。原创 2021-06-27 16:49:45 · 715 阅读 · 0 评论 -
Sqoop
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导到Hadoop的HDFS中,也可以将HDFS的数据导到关系型数据库中。原创 2021-06-27 16:34:06 · 112 阅读 · 0 评论 -
Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。原创 2021-06-27 16:27:32 · 642 阅读 · 0 评论 -
Apache Hive
hive是一个基于大数据技术的数据仓库(DataWareHouse)技术,主要是通过将用户书写的SQL语句翻译成MapReduce代码,然后发布任务给MR框架执行,完成SQL 到 MapReduce的转换。可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。原创 2021-06-27 16:05:49 · 1314 阅读 · 1 评论 -
MapReduce
MapReduce是hadoop体系下的一种计算模型(计算框架|编程框架),分布式计算框架。主要是用来通过代码,对存储在hdfs上的数据进行读取、统计,分析原创 2021-06-27 15:33:54 · 440 阅读 · 0 评论 -
HDFS文件系统
HDFS(Hadoop分布式文件系统)全称:Hadoop Distributed File System 说明:HDFS技术属于Hadoop内的一个子技术。作用:解决海量数据存储问题---分布式文件系统(多台计算机存储),突破单体服务器的存储能力。原创 2021-06-27 14:44:16 · 1687 阅读 · 0 评论