![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 94
阿德小仔
你得先看中你自己,否则别人就认为你一钱不值。
展开
-
HBase详解
HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensionalmap。原创 2023-02-12 20:54:44 · 716 阅读 · 0 评论 -
SparkStreaming
SparkStreaming用于流式数据的处理。SparkStreaming支持的数据输入源有很多,例如:KafKa、Flume和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等原创 2023-02-06 17:24:47 · 200 阅读 · 0 评论 -
SparkSQL详解
Spark SQL是 Spark 用来处理结构化数据的一个模块,它提供了 2 个编程抽象:DataFrame 和DataSet,并且作为分布式 SQL 查询引擎的作用。原创 2023-02-06 17:00:19 · 2055 阅读 · 0 评论 -
Spark详解
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在之前的学习中,Hadoop的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架 Spark 呢,这里就不得不提到 Spark 和 Hadoop 的关系。原创 2023-02-06 15:47:39 · 6171 阅读 · 0 评论 -
Hive详解
1)hive简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件 映射为一张表,并提供类SQL 查询功能。原创 2023-02-06 11:50:49 · 1463 阅读 · 0 评论 -
Hadoop(部署篇)
Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。原创 2023-02-05 23:07:30 · 1393 阅读 · 0 评论 -
Hadoop 简介
Hadoop 生态圈是指围绕 Hadoop 软件框架为核心而出现的越来越多的相关软件框架,这些软件框架和 Hadoop 框架一起构成了一个生机勃勃的 Hadoop 生态圈原创 2023-02-05 18:11:13 · 48678 阅读 · 1 评论