Hadoop大数据平台
文章平均质量分 68
大数据入门
留不住的人
PHP是世界上最美的语言
展开
-
Hive-SQL语法大全详解
],表示可选,如上[LOCATION]表示可写、可不写,表示或,如上ASC | DESC,表示二选一…,表示序列,即未完结,如上表示在SELECT后可以跟多个,以逗号隔开(),表示必填,如上(A | B | C)表示此处必填,填入内容在A、B、C中三选一。原创 2023-04-18 23:16:01 · 332 阅读 · 0 评论 -
HBase的核心工作机制
指的是当StoreFile不断的进行合并操作, 这个大的HFile就会变得越来越大, 当这个HFile达到一定阈值后, 就会触发Split分裂机制。思考: 请问 多个Master启动后, 如何选定谁成为Active Master呢?思考: Master是如何感知到RegionServer上线和下线呢?思考: 如果从一开始, 就有大量的并发, 如何解决呢?思考: 为啥要分裂呢?相关配置: hbase-site.xml。针对某一个表的列族开启: 优先级最高的。为什么是最终10GB呢?原创 2023-04-09 21:48:33 · 368 阅读 · 0 评论 -
HBase的核心原理
HBase的读取数据的流程及 HBase的写入数据的流程原创 2023-04-09 21:44:36 · 65 阅读 · 0 评论 -
HBase的高可用及集群架构
HBase的高可用, 主要指的是让集群中主节点高可用, 目前构建HBase的集群中, 主节点Master只有一台, 如果主节点宕机, 整个集群就会丢失主节点, 希望当主节点宕机后, 可以有备份节点顶上来成为主节点。如何对主节点配置高可用呢?原创 2023-04-09 21:41:29 · 137 阅读 · 0 评论 -
HBase的Java API的操作
日期字段: C1: RECORD_DATE (String)用水量字段: C1:NUM_USAGE (Double)用户字段: C1:NAME(String)将水表抄表数据存储到HBase。原创 2023-04-09 21:24:05 · 582 阅读 · 0 评论 -
HBase的shell操作
查询多条数据: scan。原创 2023-04-09 21:12:37 · 1572 阅读 · 0 评论 -
HBase介绍及集群搭建
1- HBase是一款NoSQL型数据库,不支持SQL,没有表关系, 无法进行Join操作,不支持事务(仅仅支持行级事务)2- HBase是基于google发布BigTable这篇论文而产生的, 基于HDFS, 也就说, 数据最终是存储到HDFS上, 如果后续想要启动HBase, 必须先启动HDFS, 基于Java语言3- 查询HBase的数据一般有以下几种方式: 第一种: 通过主键来检索 第二种: 通过主键的范围检索 第三种: 查询全部数据4- 存储的以结构化数据和半结构化的数据为主5- H原创 2023-04-09 21:04:25 · 744 阅读 · 0 评论 -
数据仓库的设计思想
当然也有不变的维度和剧烈变化的维度:例如一个人的相关信息,身份证号、姓名和性别等信息数据属于不变的部分,政治面貌和婚姻状态属于缓慢变化部分,而工作经历、工作单位和培训经历等在某种程度上属于急剧变化字段。通过维度建模的理论探讨分析,可以发现事实表中会存在着维度表关联的外键,以此来实现从不同的维度分析事实数据内容。,修改更新个属性字段值啥的,因此在设计维度和使用维度的过程中,就要考虑到缓慢变化维度的处理。星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而星座模式是基于多张事实表的,而且。原创 2023-03-10 00:32:17 · 741 阅读 · 0 评论 -
数仓管理工具之Hive的崛起之路
数据库和数据仓库的区别数据仓库的分层介绍引入Hive的交互方式方式1方式2方式3Hive一键启动脚本这里,我们写一个expect脚本,可以一键启动beenline,并登录到hive。expect是建立在tcl基础上的一个自动化交互套件, 在一些需要交互输入指令的场景下, 可通过脚本设置自动进行交互通信。1、安装expect2、 创建脚本3、修改脚本权限4、启动脚本5、退出beeline6、创建shell脚本7、最终调用方式4Hiv原创 2023-03-08 23:06:17 · 733 阅读 · 0 评论 -
MapReduce如何成为分布式计算引擎之父
MapReduce要学习到什么程度?MapReduce的概述分布式计算历代引擎MapReduce的思想介绍代码测试注意:测试之前一定要准备好数据,目标目录不能存在,否则报错本地测试集群测试MapReduce的分区MR大致的框架分区概念的引入自定义分区代码编写思路代码默认分区代码MapReduce的自定义类案例需求思路代码MapReduce的排序需求思路代码MapReduce的串联介绍原创 2023-03-08 22:49:11 · 175 阅读 · 0 评论 -
HDFS如何解决海量数据存储及解决方案详解
写入测试打开方式文件系统的分类本地磁盘文件系统光盘文件系统网络文件系统分布式文件系统文件查询问题HDFS的切片问题概念HDFS的元数据HDFS的架构语法操作回收站配置HDFS的安全模式介绍操作命令HDFS的读写流程写入流程查看日志文件内容HDFS的JavaAPI操作(重点)介绍核心类代码HDFS的远程拷贝命令集群内部拷贝集群之间拷贝HDFS的归原创 2023-03-08 22:28:54 · 1705 阅读 · 0 评论 -
Yarn组件解密全局资源管理和分配
1、当同时向Yarn集群多个Job任务时,Yarn如何对资源进行系统的管理,这种管理策略就是Yarn的调度策略。原创 2023-03-08 00:49:05 · 360 阅读 · 0 评论