- 博客(19)
- 资源 (1)
- 收藏
- 关注
原创 Linux查看目录大小
在Linux中,可以使用du命令来查看某个目录下所有文件和文件夹的大小。请根据实际情况替换/path/to/directory为你想要查看的目录。-h: 以人类可读的格式显示(例如,自动使用K、M或G为单位)。/path/to/directory: 你想要查看的目录路径。--max-depth=1: 限制显示目录树的深度。-r: 反向排序,显示最大的文件夹在前面。-h: 按照人类可读的数字大小进行排序。sort: 对输出进行排序。du: 磁盘使用情况命令。
2025-10-24 21:33:05
278
原创 MapReduce简介
这就像让一支庞大的军队(计算机集群)去数一个巨大图书馆里所有书的字数。两个函数的业务逻辑,无需担心分布式系统中的复杂性,如网络通信、容错、负载均衡等。解决了这个问题:与其用一台超级计算机,不如用成千上万台普通的、廉价的。)会自动将其上的任务重新分配给其他健康的节点,确保任务最终完成。让专门的士兵把同一本书的计数加起来,得到最终总字数(特别擅长处理海量的、静态的、需要全量扫描的数据。如果一个工作节点(服务器)宕机,主节点(让每个士兵数自己面前那堆书里的每一本(单台机器的硬盘和内存无法存储和处理。
2025-10-24 20:58:14
437
原创 HDFS简介
的大脑,负责管理整个文件系统的命名空间(元数据)和协调客户端的访问。,例如:文件名、目录结构、文件权限、每个文件的块列表等。分布式文件系统的简称,其架构采用主从(的可靠性和可用性,引入了以下关键组件。的热备份,不能在其故障时立即接管工作。:在本地文件系统上存储实际的数据块。获取到块的位置信息后,会直接与相应的。上所有数据块的列表,默认每小时一次。:如打开、关闭、重命名文件和目录。的劳动力,负责存储实际的数据。在内存中合并它们,生成一个新的。执行数据块的创建、删除和复制。,以获取文件块的位置信息。
2025-10-17 21:26:08
384
原创 Zookeeper简介
负责管理各个节点(服务器)的配置信息、命名服务、状态同步,并提供分布式锁和集群选举等核心功能。的数据模型类似于一个标准的文件系统,以树形结构(层次命名空间)来存储数据。当创建该节点的客户端会话失效(断开连接)时,节点会自动被删除。主要用于扩展系统的读性能,而不影响写操作的吞吐量。:无论客户端连接到集群中的哪个服务器,它看到的数据模型都是一致的。:集群中唯一的领导者,负责处理所有写请求(创建、删除、更新。:一旦一个更新被应用,它将一直保持,直到被下一个更新覆盖。:客户端的视图在一定时间范围内保证是最新的。
2025-10-17 19:23:28
361
原创 Sqoop简介
它解决了企业中最常见的一个数据集成问题:如何将业务系统中存放在关系型数据库的结构化数据,导入到。的大数据平台中进行存储和分析,以及如何将分析结果导回关系型数据库。来连接多种类型的数据源,除了主流数据库,还可以连接企业数据仓库(如。对象关系映射),用于在数据传输过程中序列化和反序列化数据。的扩展组件,用于管理与特定数据源的连接和交互。的并行计算框架,实现了数据的分布式传输,速度非常快。:根据元数据信息,自动生成与表结构对应的。中,也可以从这些系统中导出数据。作业,完成数据的并行传输。:可以直接将数据导入到。
2025-10-15 21:06:24
320
原创 Hbase简介
优点:对于只查询少数几个列的场景,效率极高,因为它不需要读取整行数据。对于单行数据的读写操作是强一致性的。这意味着你读到的数据一定是最近一次成功写入的数据。管理角色,负责管理元数据(表结构)、区域的分配、负载均衡以及。:存储应用程序、服务器产生的大量日志,供后续查询和分析。:存储用户的宽表,包含大量的用户属性和行为数据。来管理集群状态和协调工作,保证服务的可用性。:存储海量设备上报的时序数据,如传感器读数。工作节点,负责处理客户端的读写请求。,专为处理大规模海量数据而设计。之上的、分布式的、面向列的开源。
2025-10-15 19:43:13
265
原创 Yarn资源管理器
可以把它想象成一个分布式的操作系统,负责管理整个集群(由多台服务器组成)的所有资源(它根据容量、队列等预定义的策略,将系统中的资源分配给各个正在运行的应用程序。通信来启动这些任务,并监控它们的执行进度,在任务失败时重新申请资源以重试。函数,它只基于应用程序的资源需求和执行约束来做出决策。、内存等),并根据应用程序的需求,智能地将资源分配给它们。,是整个系统资源的最终决策者。它的核心定位是一个集群资源管理和作业调度系统。,运行在集群中的每一台数据节点上。任务的资源容器,然后与对应的。(又一个资源协调者)。
2025-10-08 20:24:12
400
原创 MapReduce的五个阶段
在这一阶段,原始数据被分割成多个数据块(通常称为“切片”)。每个切片包含了输入数据的一部分,并被分配给不同的Map任务进行处理。函数读取并解析输入数据,将其转换为中间键-值对(<key, value>)。这些中间键-值对随后用于后续的分区、排序。在这一阶段,Reduce阶段生成的最终结果会被写入分布式文件系统(如HDFS)或其他输出介质。这一阶段确保相同键的数据被聚集在一起,以便在Reduce阶段进行进一步的聚合操作。函数对这些数据执行特定的聚合操作,生成最终的输出结果。
2025-10-08 19:51:45
390
原创 Linux查看磁盘信息
h 以合适的单位显示文件系统的磁盘空间使用情况,输出结果包括总磁盘空间、已使用磁盘空间、可用磁盘空间等信息。-s 选项表示汇总每个参数的大小,-h 选项表示以合适的单位显示。du 命令用于查看文件和目录的磁盘空间使用情况。df 命令用于显示文件系统的磁盘空间使用情况。
2025-10-06 11:44:13
622
原创 Linux查看内存信息
h 以合适的单位显示内存使用情况,最大为三位数,自动计算对应的单位值。输出结果包括总内存、已使用内存、空闲内存等信息。该命令将显示系统的内存信息,包括总内存、已使用内存、空闲内存、缓存、缓冲等详细信息。shared 是多个进程共享的内存总数;used 是已经使用的内存数;buffers 是缓冲内存数;cached 是缓存内存数。free 是空闲的内存数;total 是总内存数;
2025-10-06 10:45:19
435
原创 Linux比较运算符
在Linux系统中,比较运算符主要用于在shell脚本或者命令行中进行数值或字符串的比较。这些比较运算符通常用在if语句、while循环或case语句中,以决定程序的执行流程。• 大于等于 (-ge)• 小于等于 (-le)• 不等于 (-ne)• 等于 (-eq)• 大于 (-gt)• 小于 (-lt)
2025-10-05 11:28:20
277
原创 Linux文件权限
chmod ug+w,o-x test01.txt --表示所有者、所属组 增加写权限;- --普通文件(文本文件、二级制流文件都是普通文件;组 +- 权限 (组有:u 所有者、g 所属组、o 其他人)- rw- rw- r-- 共10个字符,表示文件权限;- --没有权限。x --可执行。w --可写。第一组 --所有者。第二组 --所属组。第三组 --其他人。
2025-10-04 22:34:20
384
原创 vim编辑器简介
vim的设计理念是命令的组合。用户学习了各种各样的文本间移动/跳转的命令和其他的普通模式的编辑命令,并且能够灵活组合使用的话,能够比那些没有模式的编辑器更加高效的进行文本编辑。代码补全、编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用,和Emacs并列成为类Unix系统用户最喜欢的文本编辑器。vim 官方设计时候就是设计一种非图形化界面的一种文本编辑工具,通过大量的命令来代替鼠标功能。末行模式:执行一些复杂的命令,输入可见,光标会定位到最后一行;命令模式:执行一些简单的命令,输入不可见;
2025-10-04 15:46:36
358
原创 Linux常用命令
a, --all --查看当前目录下的所有文件,包含以.开头的隐藏文件;mkdir -p a/b/c/d --其中-p表示递归,如果目录不存在就递归创建目录;-h, --human-readable --以合适单位显示文件大小。-d, --directory --查看目录属性。
2025-10-03 15:09:33
462
原创 CDP简介
CDP,全称Cloudera Data Platform。由美国的Cloudera公司推出的新一代大数据产品;CDP结合了CDH和HDP的优点,并在技术堆栈中增加了新功能和对已有技术提供了增强功能。CDP是一个可扩展且可自定义的大数据平台。5.支持多种安装方式(Cloudera Manager方式)
2023-08-13 18:48:35
1231
原创 CDH简介
一、CDH概念CDH,全称Cloudera's Distribution, including Apache Hadoop。由美国的Cloudera公司推出的大数据产品;CDH是基于稳定版本的Apache Hadoop构建而成,也是目前市场上应用比较广泛的大数据产品。二、CDH架构三、CDH优点1.版本管理做的好2.版本更新速度快3.集群搭建效率高4.安全性高5.支持多种安装方式(Cloudera Manager方式) • Cloudera Manager...
2021-10-10 23:43:33
12720
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅