大数据
文章平均质量分 81
巴涅波赫夫
这个作者很懒,什么都没留下…
展开
-
ES7.x的查询语句及java查询语句
Elasticsearch 7.x 是一个基于 Lucene 的分布式搜索引擎,它提供了一个分布式全文搜索引擎,可以快速、准确地搜索、分析和存储海量数据。Elasticsearch 7.x 的主要特点包括:分布式架构:Elasticsearch 7.x 是一个分布式系统,它可以运行在多个节点上,每个节点都是相互独立的,并且数据会自动分片和复制到多个节点上,提高了系统的可用性和可扩展性。原创 2023-04-28 16:46:41 · 2040 阅读 · 1 评论 -
Hive调优方法
HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive调优,排查数据倾斜等很有帮助参数说明EXTENDED加上extended可以输出有关计划的额外信息。这通常是物理信息,例如文件名。这些额外信息对我们用处不大CBO输出由Calcite优化器生成的计划。CBO从hive4.0.0版本开始支持AST输出查询的抽象语法树。AST在hive2.1.0版本删除了,存在bug,转储AST可能会导致OOM错误,将在4.0.0版本修复。......原创 2022-07-29 17:33:01 · 2334 阅读 · 0 评论 -
HIVE数据的压缩与存储格式
压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。不过,尽管压缩与解压操作的CPU开销不高,其性能的提升和资源的节省并非没有代价。...原创 2022-07-29 17:31:05 · 2072 阅读 · 0 评论 -
HIVE操作自查手册(全)
对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。示例:基于上述数据结构,在Hive里创建对应的表,并导入数据。创建本地测试文件test.txt注意:MAP,STRUC原创 2022-07-28 17:19:15 · 1769 阅读 · 0 评论 -
HIVE简介、优缺点及架构原理
Hive简介hive由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive本质将HQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序在Yarn上。...原创 2022-07-28 17:17:40 · 588 阅读 · 0 评论 -
集群的安全模式
一旦在内存中成功建立文件系统元数据的映像,则创建一个空的编辑日志。这个过程期间,NameNode一直运行在安全模式,即NameNode的文件系统对于客户端来说是只读的。系统中的数据块的位置并不是由NameNode维护的,而是以块列表的形式存储在DataNode中。在系统的正常操作期间,NameNode会在内存中保留所有块位置的映射信息。在安全模式下,各个DataNode会向NameNode发送最新的块列表信息,NameNode了解到足够多的块位置信息之后,即可高效运行文件系统。...原创 2022-07-28 17:15:07 · 211 阅读 · 0 评论 -
集群中增加数据节点与退役数据节点
注意不允许白名单和黑名单中同时出现同一个主机名称,既然使用了黑名单blacklist成功退役了hadoop105节点,因此要将白名单whitelist里面的hadoop105去掉。添加到白名单的主机节点,都允许访问NameNode,不在白名单的主机节点,都会被退出。添加到黑名单的主机节点,不允许访问NameNode,会在数据迁移后退出。随着业务的增长,数据量会越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。...原创 2022-07-28 17:11:14 · 366 阅读 · 0 评论 -
HDFS中DataNode的工作机制
可在hdfs-site.xml配置文件中进行修改二者的值,值得注意的是,heartbeat.recheck.interval的单位为毫秒,dfs.heartbeat.interval的单位为秒。心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。集群运行中可以安全加入和退出一些机器。...原创 2022-07-28 17:10:19 · 354 阅读 · 0 评论 -
NameNode故障处理的两种方法
NameNode故障后,可以采用两种方法恢复数据。原创 2022-07-28 17:07:27 · 473 阅读 · 0 评论 -
NameNode (NN) 和SecondaryNameNode (2NN)工作机制
元数据存储着hdfs的目录结构及每一个文件的块信息(如块的id、块的副本数量、块的存放位置)元数据由NameNode负责管理,由于元数据经常需要进行随机访问与响应客户请求,若存储在NameNode节点的磁盘中,效率必然过低,因此元数据需要存放在内存中。但如果只存放在内存中,一旦断电,元数据丢失,整个集群就无法工作了,因此产生了。文件(只进行追加操作,效率很高)。...原创 2022-07-28 17:06:22 · 457 阅读 · 0 评论 -
HDFS数据的读写流程
客户端通过DistributedFileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。NameNode返回是否可以上传。客户端请求第一个Block上传到哪几个DataNode服务器上。NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。...原创 2022-07-28 17:05:00 · 185 阅读 · 0 评论 -
HDFS简介与HDFS的SHELL操作命令大全
HDFS(HadoopDistributedFileSystem),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。...原创 2022-07-28 17:01:05 · 896 阅读 · 0 评论