hadoop
文章平均质量分 84
hadoop学习
huan_1993
这个作者很懒,什么都没留下…
展开
-
MapReduce实现TopN的效果
最近在学习Hadoop的MapReduce,此处记录一下如何实现 `TopN` 的效果,以及在MapReduce中如何实现 `自定义分组`。原创 2023-07-17 14:08:21 · 307 阅读 · 0 评论 -
MapReduce的基础知识
1. Hadoop MapReduce 是一个 `分布式计算框架`,用于轻松编写分布式应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多TB数据集)2. MapReduce 是一种`面向海量数据`处理的一种指导思想,也是一种用于对大规模数据进行分布式计算的编程模型。原创 2023-07-03 12:30:03 · 256 阅读 · 0 评论 -
hdfs的透明加密记录
我们知道,在hdfs中,我们的数据是以block块存储在我们的磁盘上的,那么默认情况下,它是以密文存储的,还是以明文存储的呢?如果是明文存储的,那么是否就不安全呢?那么在hdfs中是如何做才能做到数据的透明加密呢?原创 2023-06-19 12:11:21 · 790 阅读 · 0 评论 -
hdfs中acl权限管理的简单实用
在我们开发的过程中有这么一种场景,/projectA目录是用户创建的,他对这个目录有wrx权限,同时这个目录属于supergroup,在这个组中的用户也具有这个目录的wrx权限,对于其他人,不可访问这个目录。现在有这么一个特殊的用户root由上图可以,root用户想访问/projectA目录,在hdfs中可以通过acl来实现。原创 2023-06-05 12:28:56 · 1072 阅读 · 0 评论 -
hdfs开启回收站(废纸篓)
我们知道,在mac系统上删除文件,一般情况下是可以进入废纸篓里的,如果此时我们误删除了,还可以从 废纸篓中恢复过来。那么在hdfs中是否存在类似mac上的废纸篓这个功能呢?答案是存在的。原创 2023-05-25 20:03:38 · 467 阅读 · 0 评论 -
hdfs集群的扩容和缩容
当我们的hadoop集群运行了一段时间之后,原有的数据节点的容量已经不能满足我们的存储了,这个时候就需要往集群中增加新的数据节点。此时我们就需要动态的对hdfs集群进行扩容操作(节点服役)。原创 2023-04-04 12:23:14 · 949 阅读 · 0 评论 -
hdfs disk balancer 磁盘均衡器
在我们的hadoop集群运行一段过程中,由于多种原因,数据在DataNade的磁盘之间的分布可能是不均匀。**比如:** 我们刚刚给某个DataNode新增加了一块磁盘或者集群上存在大批量的write & deltete操作等灯。那么有没有一种工具,能够使单个DataNode中的多个磁盘的数据均衡呢?借助Hadoop提供的`Diskbalancer`命令行工具可以实现。原创 2023-03-31 12:26:48 · 328 阅读 · 0 评论 -
HDFS Balancer负载均衡器
当我们的hadoop集群运行了一段时间之后,各个`DataNode`上的`数据分布`并`不一定`是`均匀分布`的。**比如说:** 我们向现有集群中添加了一个新的DataNode。原创 2023-03-30 12:29:23 · 831 阅读 · 0 评论 -
HDFS Short-Circuit Local Reads
在`HDFS`中,读取操作通常是通过`DataNode`。因此,当客户端要读取文件时,DataNode 会从磁盘上读取文件,然后通过`TCP套接字`将数据发送给客户端。**如果我们的客户端和数据在同一台机器上的时候,** 那么是否可以绕过DataNode,允许客户端直接读取数据呢?通过`Short-Circuit Local Reads`可以实现这一功能。原创 2023-03-27 20:06:53 · 277 阅读 · 0 评论 -
hdfs的异构存储
在我们实际的开发过程中,我们的某些数据可能经常使用,但是过了一段时间,这个数据就不怎么使用了,即我们的数据存在一个`热`、`温`、`冷`等这些特性。那么针对`数据的热度`,我们可以采用不同的策略,存储到不同的存储介质上。原创 2023-03-21 07:45:00 · 331 阅读 · 0 评论 -
mac系统上hdfs java api的简单使用
在上一节中,我们简单学习了在命令行上如何操作hdfs shell api,此处我们通过java程序来操作一下。原创 2023-03-02 12:41:27 · 603 阅读 · 0 评论 -
hdfs file system shell的简单使用
此处我们通过命令行,简单的学习一下 `hdfs file system shell ` 的一些操作。原创 2023-03-01 12:33:10 · 525 阅读 · 0 评论 -
Centos7搭建hadoop3.3.4分布式集群
最近在学习`hadoop`,本文记录一下,怎样在Centos7系统上搭建一个`3`个节点的`hadoop`集群。原创 2023-02-21 12:41:06 · 3014 阅读 · 0 评论 -
Centos7系统编译Hadoop3.3.4
最近在学习`hadoop`,此篇文章简单记录一下通过源码来编译`hadoop`。为什么要重新编译`hadoop源码`,是因为为了匹配不同操作系统的本地库环境。原创 2023-02-20 12:33:57 · 761 阅读 · 0 评论