自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 Linux查看所有用户方法总结

系统中,有几种方法可以查看所有用户。

2025-11-09 11:50:16 379

原创 Linux查看目录大小

在Linux中,可以使用du命令来查看某个目录下所有文件和文件夹的大小。请根据实际情况替换/path/to/directory为你想要查看的目录。-h: 以人类可读的格式显示(例如,自动使用K、M或G为单位)。/path/to/directory: 你想要查看的目录路径。--max-depth=1: 限制显示目录树的深度。-r: 反向排序,显示最大的文件夹在前面。-h: 按照人类可读的数字大小进行排序。sort: 对输出进行排序。du: 磁盘使用情况命令。

2025-10-24 21:33:05 278

原创 MapReduce简介

这就像让一支庞大的军队(计算机集群)去数一个巨大图书馆里所有书的字数。两个函数的业务逻辑,无需担心分布式系统中的复杂性,如网络通信、容错、负载均衡等。解决了这个问题:与其用一台超级计算机,不如用成千上万台普通的、廉价的。)会自动将其上的任务重新分配给其他健康的节点,确保任务最终完成。让专门的士兵把同一本书的计数加起来,得到最终总字数(特别擅长处理海量的、静态的、需要全量扫描的数据。如果一个工作节点(服务器)宕机,主节点(让每个士兵数自己面前那堆书里的每一本(单台机器的硬盘和内存无法存储和处理。

2025-10-24 20:58:14 437

原创 HDFS简介

的大脑,负责管理整个文件系统的命名空间(元数据)和协调客户端的访问。,例如:文件名、目录结构、文件权限、每个文件的块列表等。分布式文件系统的简称,其架构采用主从(的可靠性和可用性,引入了以下关键组件。的热备份,不能在其故障时立即接管工作。:在本地文件系统上存储实际的数据块。获取到块的位置信息后,会直接与相应的。上所有数据块的列表,默认每小时一次。:如打开、关闭、重命名文件和目录。的劳动力,负责存储实际的数据。在内存中合并它们,生成一个新的。执行数据块的创建、删除和复制。,以获取文件块的位置信息。

2025-10-17 21:26:08 384

原创 Zookeeper简介

负责管理各个节点(服务器)的配置信息、命名服务、状态同步,并提供分布式锁和集群选举等核心功能。的数据模型类似于一个标准的文件系统,以树形结构(层次命名空间)来存储数据。当创建该节点的客户端会话失效(断开连接)时,节点会自动被删除。主要用于扩展系统的读性能,而不影响写操作的吞吐量。:无论客户端连接到集群中的哪个服务器,它看到的数据模型都是一致的。:集群中唯一的领导者,负责处理所有写请求(创建、删除、更新。:一旦一个更新被应用,它将一直保持,直到被下一个更新覆盖。:客户端的视图在一定时间范围内保证是最新的。

2025-10-17 19:23:28 361

原创 Sqoop简介

它解决了企业中最常见的一个数据集成问题:如何将业务系统中存放在关系型数据库的结构化数据,导入到。的大数据平台中进行存储和分析,以及如何将分析结果导回关系型数据库。来连接多种类型的数据源,除了主流数据库,还可以连接企业数据仓库(如。对象关系映射),用于在数据传输过程中序列化和反序列化数据。的扩展组件,用于管理与特定数据源的连接和交互。的并行计算框架,实现了数据的分布式传输,速度非常快。:根据元数据信息,自动生成与表结构对应的。中,也可以从这些系统中导出数据。作业,完成数据的并行传输。:可以直接将数据导入到。

2025-10-15 21:06:24 320

原创 Hbase简介

优点:对于只查询少数几个列的场景,效率极高,因为它不需要读取整行数据。对于单行数据的读写操作是强一致性的。这意味着你读到的数据一定是最近一次成功写入的数据。管理角色,负责管理元数据(表结构)、区域的分配、负载均衡以及。:存储应用程序、服务器产生的大量日志,供后续查询和分析。:存储用户的宽表,包含大量的用户属性和行为数据。来管理集群状态和协调工作,保证服务的可用性。:存储海量设备上报的时序数据,如传感器读数。工作节点,负责处理客户端的读写请求。,专为处理大规模海量数据而设计。之上的、分布式的、面向列的开源。

2025-10-15 19:43:13 265

原创 Yarn资源管理器

可以把它想象成一个分布式的操作系统,负责管理整个集群(由多台服务器组成)的所有资源(它根据容量、队列等预定义的策略,将系统中的资源分配给各个正在运行的应用程序。通信来启动这些任务,并监控它们的执行进度,在任务失败时重新申请资源以重试。函数,它只基于应用程序的资源需求和执行约束来做出决策。、内存等),并根据应用程序的需求,智能地将资源分配给它们。,是整个系统资源的最终决策者。它的核心定位是一个集群资源管理和作业调度系统。,运行在集群中的每一台数据节点上。任务的资源容器,然后与对应的。(又一个资源协调者)。

2025-10-08 20:24:12 400

原创 MapReduce的五个阶段

在这一阶段,原始数据被分割成多个数据块(通常称为“切片”)。每个切片包含了输入数据的一部分,并被分配给不同的Map任务进行处理。函数读取并解析输入数据,将其转换为中间键-值对(<key, value>)。这些中间键-值对随后用于后续的分区、排序。在这一阶段,Reduce阶段生成的最终结果会被写入分布式文件系统(如HDFS)或其他输出介质。这一阶段确保相同键的数据被聚集在一起,以便在Reduce阶段进行进一步的聚合操作。函数对这些数据执行特定的聚合操作,生成最终的输出结果。

2025-10-08 19:51:45 390

原创 Linux查看磁盘信息

h 以合适的单位显示文件系统的磁盘空间使用情况,输出结果包括总磁盘空间、已使用磁盘空间、可用磁盘空间等信息。-s 选项表示汇总每个参数的大小,-h 选项表示以合适的单位显示。du 命令用于查看文件和目录的磁盘空间使用情况。df 命令用于显示文件系统的磁盘空间使用情况。

2025-10-06 11:44:13 622

原创 Linux查看内存信息

h 以合适的单位显示内存使用情况,最大为三位数,自动计算对应的单位值。输出结果包括总内存、已使用内存、空闲内存等信息。该命令将显示系统的内存信息,包括总内存、已使用内存、空闲内存、缓存、缓冲等详细信息。shared 是多个进程共享的内存总数;used 是已经使用的内存数;buffers 是缓冲内存数;cached 是缓存内存数。free 是空闲的内存数;total 是总内存数;

2025-10-06 10:45:19 435

原创 Linux查看CPU核数

方法一:通过proc文件系统 获取cpu总数量。方法二:lscpu命令 显示CPU详细信息。

2025-10-05 12:18:03 250

原创 Linux比较运算符

在Linux系统中,比较运算符主要用于在shell脚本或者命令行中进行数值或字符串的比较。这些比较运算符通常用在if语句、while循环或case语句中,以决定程序的执行流程。• 大于等于 (-ge)• 小于等于 (-le)• 不等于 (-ne)• 等于 (-eq)• 大于 (-gt)• 小于 (-lt)

2025-10-05 11:28:20 277

原创 Linux文件权限

chmod ug+w,o-x test01.txt --表示所有者、所属组 增加写权限;- --普通文件(文本文件、二级制流文件都是普通文件;组 +- 权限 (组有:u 所有者、g 所属组、o 其他人)- rw- rw- r-- 共10个字符,表示文件权限;- --没有权限。x --可执行。w --可写。第一组 --所有者。第二组 --所属组。第三组 --其他人。

2025-10-04 22:34:20 384

原创 vim编辑器简介

vim的设计理念是命令的组合。用户学习了各种各样的文本间移动/跳转的命令和其他的普通模式的编辑命令,并且能够灵活组合使用的话,能够比那些没有模式的编辑器更加高效的进行文本编辑。代码补全、编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用,和Emacs并列成为类Unix系统用户最喜欢的文本编辑器。vim 官方设计时候就是设计一种非图形化界面的一种文本编辑工具,通过大量的命令来代替鼠标功能。末行模式:执行一些复杂的命令,输入可见,光标会定位到最后一行;命令模式:执行一些简单的命令,输入不可见;

2025-10-04 15:46:36 358

原创 hdfs常用命令

注意:出现如下日志 不必理会。查看hdfs某个目录信息。

2025-10-03 15:50:36 576

原创 Linux常用命令

a, --all --查看当前目录下的所有文件,包含以.开头的隐藏文件;mkdir -p a/b/c/d --其中-p表示递归,如果目录不存在就递归创建目录;-h, --human-readable --以合适单位显示文件大小。-d, --directory --查看目录属性。

2025-10-03 15:09:33 462

原创 CDP简介

CDP,全称Cloudera Data Platform。由美国的Cloudera公司推出的新一代大数据产品;CDP结合了CDH和HDP的优点,并在技术堆栈中增加了新功能和对已有技术提供了增强功能。CDP是一个可扩展且可自定义的大数据平台。5.支持多种安装方式(Cloudera Manager方式)

2023-08-13 18:48:35 1231

原创 CDH简介

一、CDH概念CDH,全称Cloudera's Distribution, including Apache Hadoop。由美国的Cloudera公司推出的大数据产品;CDH是基于稳定版本的Apache Hadoop构建而成,也是目前市场上应用比较广泛的大数据产品。二、CDH架构三、CDH优点1.版本管理做的好2.版本更新速度快3.集群搭建效率高4.安全性高5.支持多种安装方式(Cloudera Manager方式) • Cloudera Manager...

2021-10-10 23:43:33 12720

oracle_biee_11g安装文档

oracle_biee_11g的安装步骤,这是一个包含图片的安装文档。

2014-01-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除