- 博客(13)
- 收藏
- 关注
原创 linux系统以及运行在系统之上的java程序命令的长选项和短选项注意点
在 Linux 系统上,管理和监控 Java 程序时,我们最常使用的命令是 (启动程序)和 (查看进程)。这些命令的选项(Options)分为短选项和长选项,它们在使用上确实有一些重要的区别和注意事项。短选项 (Short Options)形式:一个减号后跟单个字母,例如 , 。特点:历史悠久,简洁,但可读性较差。很多非标准选项(如JVM内存选项)以 开头。组合:多个“功能类”短选项可以合并在一起写,比如 可以写成 。但对于Java命令的参数,这通常不适用,因为每个选项通常都需要自己的值。长选项 (Lo
2025-09-22 16:36:28
816
原创 hive本地模式于mr作业的异同
特性本地模式 (Local Mode)MapReduce模式 (MR Mode)执行引擎本地机器上的JVMHadoop集群的MR框架(YARN)资源来源单台机器(通常是Hive客户端所在机器)的资源整个Hadoop集群的资源(多台机器)适用场景小数据量(默认条件:输入数据量小于,默认为128MB)、简单查询大数据量复杂查询全表扫描聚合操作启动速度快(无需与YARN交互,无需申请Container)慢(需要与YARN通信、申请资源、启动JVM等)并行度单进程,无并行高并行。
2025-09-22 16:17:53
492
原创 Hive的安装以及Hivesql的执行过程
Shuffle:Map Task处理完本地数据后,会输出中间结果,并经过Shuffle阶段将相同Key的数据传输到同一个Reduce Task上。Reduce:Reduce Task(可能运行在任何一个有资源的节点上)对数据进行汇总计算。输出:最终结果被写回HDFS。Hive在哪:安装在边缘节点,作为提交任务的客户端。如何调用多台服务器:通过YARN这个资源调度器。YARN将计算任务分发到集群的各个节点上。如何获取文件:遵循“数据本地化”原则。计算任务(尤其是Map Task)会被。
2025-09-17 20:24:28
733
原创 Hadoop集群中Hive的部署建议
所以,一个Hadoop集群中并不会只安装一个Hive客户端。你可以根据需要在多台机器上安装Hive客户端。•若采用远程模式(生产环境推荐),多个客户端可便捷地通过网络连接到一个或一组中央Metastore服务和HiveServer2服务来访问集群数据。•选择部署模式时,需权衡易用性、安全性和维护成本。希望这些信息能帮助你更好地规划Hive的部署。如果你对特定部署模式的详细配置步骤感兴趣,我可以提供更具体的指导。
2025-09-17 20:12:28
718
原创 Hadoop集群 的理解
概念层实体作用类比物理硬件层服务器(CPU/内存/硬盘/网卡)提供计算、存储和网络的物理基础厂房、土地操作系统层Linux管理硬件资源,为上层软件提供运行环境厂长、管理体系分布式计算层Hadoop实现大数据存储和计算的分布式框架车间、流水线Hadoop集群的节点,本质上是运行着Hadoop软件的Linux服务器。
2025-09-17 19:31:46
408
原创 hive优化
在 Hive 中,一个 SQL 查询通常会被编译成一个或多个或作业来执行。这些作业会经历 Map 和 Reduce 阶段,从磁盘读取数据,进行分布式计算,最后输出结果。这个过程虽然强大,但对于一些非常简单的查询(例如全表扫描、过滤极少量数据)来说,启动分布式任务的 overhead(开销)可能会比实际计算本身还要大。
2025-08-23 11:53:53
959
原创 MapReduce
**示例**:如果一个 Map Task 输出了三个 `(sum, count)` 对:`(10, 1)`, `(20, 1)`, `(30, 1)`,Combiner 会将它们合并成一个 `(60, 3)`,然后再发送给 Reduce Task。3. **结论**:每个 Map Task 处理的数据量是**大致相同但并非绝对一致的**。3. **正确方法**:Map 阶段输出**总和(Sum)**和**计数(Count)**这两个足以计算平均值的**中间结果**。
2025-08-23 10:45:28
308
原创 计算机小白一定要学会的编程思想
操作系统是连接程序与硬件的桥梁,是程序调用硬件工作的得力帮手,可以说没有操作系统就如同人没有了手脚,一身力气没处使。计算机程序是基于操作系统运行的一个个文件包,它可以指挥操作系统进行硬件的调用,同时程序也可以指挥程序。
2025-08-23 09:44:45
83
原创 Oracle数据库优化
1. 优化是持续的过程:没有一劳永逸的优化,随着数据量和业务的变化,需要持续监控和调整。,考虑是否可以使用一些物化视图来提高查询效率,考虑是否需要在表上创建索引。在表关连的时候,如果由过滤条件,则尽量先过滤在关连(避免笛卡尔积过高)合理的使用exists和in,在实际工作中尽量推荐使用exists。合理的使用exists和in,在实际工作中尽量推荐使用exists。在表关链的时候尽量将小表写在左边,大表写在右边,可以提高查询效率。要合理的使用索引,尽量避免索引失效,尽量。在查询数据的时候尽量不要使用。
2025-08-22 20:47:55
307
原创 传统数据库的瓶颈与数仓的必要性
由于操作型数据库的分析处理数据能力有限,因此需要一个新的系统分析生产数据,数据仓库应运而生,他在设计以冗余度较高的反范式存储数据使得对数据进行分析和开发得以实现,同时数据开发产生的各项指标数据反过来推动业务的进行和新业务的开展,形成一种良性循环。(oltp需要优化存储,减少冗余,而olap需要优化分析,因此数据可能大量冗余,分析和存储之间有一个平衡点需要开发人员凭借经验把握模型设计符合业务需求):直接操作难以保证多表一致性,凭空产生或被删除数据,导致财务数据不一致。:生产库通常为写优化,不适合分析查询。
2025-08-22 19:15:21
426
原创 计算机存储常用的单位换算
计算机网络的数据传输,在传输层以比特流的形式即一个个二进制的代码进行传输,如ipv4地址的存储以32的形式进行存储,每八位代表一个IP的网络位,八位的二进制上限为255,因此常用255.255.255.0子网掩码来区分一个局域网的网络号和主机号,以及主机号的可用范围。1 太字节(Terabyte, TB) = 10¹² B = 1,000 GB。1 吉字节(Gigabyte, GB) = 10⁹ B = 1,000 MB。1 千字节(Kilobyte, KB) = 10³ B = 1,000 B。
2025-08-09 09:53:30
1478
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅