Hadoop
文章平均质量分 84
键盘敲烂@
无
展开
-
Presto
一、Presto的概述1.1 Presto的简介官网:Presto | Distributed SQL Query Engine for Big DataPresto是facebook的一个开源,并完全基于内存的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。presto的架构由关系型数据库的架构演化而来。presto之所以能在各个内存计算型数据库中脱颖而出,在于以下几点: 具有良好的清晰的体系架构,是一个能够独立运行的系统,不依赖于任何其他外部系统。 例如原创 2022-01-03 15:49:01 · 998 阅读 · 0 评论 -
Hbase
一. Hbase的概述1.1 Hbase简介1) 简要介绍1. Hbase是一个hadoop数据库2. 是一个非关系型数据库,具有分布式,良好的扩展性,面向列式存储的数据库3. 灵感来源与Google的《Big Table》论文,java语言编写,开源2) 特性- 强一致性读写,适合统计分析聚合类任务- 自动分片- 自动RegionServer故障转移- hbase存储是基于HDFS的- Hbase可以与MapReduce进行整合,进行数据分析- Hbase还提供jav原创 2022-01-02 20:14:49 · 1370 阅读 · 0 评论 -
MapReduce
一、Mapreduce的基础1.1 为什么要学习Mapreduce1. 单机资源受限,比如CPU,磁盘2. 分布式计算的程序的复杂度特别高,难度大mapreduce就是解决以上问题的: 1. 利用集群的所有cpu,所有内存,所有磁盘 2. mapreduce就将公共的功能的开发封装成了框架,不需要开发人员操心,开发人员只需要关注具体的业务逻辑1.2 Mapreduce的简介1.2.1 简介1. mapreduce是hadoop的三大重要模块之一2. ...原创 2021-12-18 09:17:10 · 201 阅读 · 0 评论 -
七、八、九、HDFS体系机构,工作机制,DHFSAPI,读写流程
目录七、hdfs的体系结构(重中之重)4.1 整体的概述4.2 fsimage和edit文件的查看八、hdfs中的工作机制1.1 开机启动流程(重点)1.2 安全模式1.3 心跳机制(重点)1.4 检查点机制(重点)1.5 网络拓扑以及机架感知1.6 集群工作节点的动态上下线九、hdfs的api十、读写流程(重点)3.1 读流程3.2 写流程七、hdfs的体系结构(重中之重)4.1 整体的概述<span style="backg原创 2021-12-08 20:08:57 · 245 阅读 · 0 评论 -
五、六Hadoop常用shell指令,HDFS块的概念
五、常用的shell指令在命令上输入hdfs dfs 或者是hadoop fs后,直接回车就会提示相关的参数的用法Usage: hadoop fs [generic options]-- 创建目录指令 [-mkdir [-p] <path> ...] --文件的上传指令 [-copyFromLocal [-f] [-p] [-l] <localsrc> ... <dst>] [-put [-f...原创 2021-12-08 08:35:26 · 1490 阅读 · 0 评论 -
第三、四章:安装模式之本地模式与伪分布式搭建
3.1 本地模式介绍3.1.1 特点:运行在单台机器上,没有分布式思想,使用的是本地文件系统3.1.2. 用途用于对MapReduce程序的逻辑进行调试,确保程序的正确。由于在本地模式下测试和调试MapReduce程序较为方便,因此,这种模式适宜用在开发阶段。3.2 平台软件说明- 操作系统: win10/win7- 虚拟软件: VMware14- 虚拟机: 主机名:qianfeng01 ip:192.16原创 2021-12-06 18:49:21 · 1104 阅读 · 0 评论 -
第一、二章大数据与Hadoop的概述
第一章:大数据的概述1.1 大数据的概念最近几年,IT行业最火的名词中,少不了"大数据"、"人工智能"、"云计算"、"物联网"、"区块链"等等这些名词。针对于"大数据"这个名词,现在更是全国老百姓,老少皆知的一个词语。但是什么是大数据,除了IT行业的专业人士外,其他人乃至其他行业的人,除了能说出"数据量大"之外,好像真的不能再更深层次的解释了。那么我们来看看下面几个权威机构给出的解释。维基百科 给出的定义:数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信原创 2021-12-06 18:38:35 · 2590 阅读 · 0 评论