abxzq19870214-CSDN博客

原创 IAAS监控、调优、排障-常用命令-SAR

如果%iowait指标过高，说明CPU在等待磁盘IO时的时间过长，可能存在磁盘IO瓶颈。如果%idle指标过低，说明CPU使用率过高，可能存在CPU瓶颈。%iowait：CPU等待IO的百分比，即CPU处于等待磁盘IO操作的状态所占的时间比例。%system：内核空间的CPU使用率，即操作系统内核的CPU使用率。%idle：空闲的CPU时间百分比，即CPU处于空闲状态的时间比例。%user：用户空间的CPU使用率，即应用程序的CPU使用率。%steal：虚拟机的虚拟机CPU使用的CPU。

2023-03-16 14:40:02 228

原创生成ETL转义操作的10个案例

将数字字符串转换为数字类型（如整数，浮点数等）分割字符串，并将其转换为列表或数组。将字符串中的多个空格合并为单个空格。将字符串中的多个空格合并为单个空格。替换字符串中的某些字符或字符串。替换字符串中的某些字符或字符串。将日期字符串转换为日期对象。将空字符串转换为NULL值。将字符串中的千位分隔符去除。将日期字符串转换为日期对象。将数字字符串转换为数字类型。将空字符串转换为NULL值。将字符串中的千位分隔符去除。将字符串转换为大写或小写。将字符串转换为大写或小写。将字符串转换为布尔值。将字符串转换为布尔值。

2023-01-15 15:10:06 246

原创 hdfs源码核心类有哪些？

它继承了Java的DataOutputStream类，并提供了额外的功能，例如对数据块的写入、写入数据时的容错处理等。FSNamesystem：FSNamesystem类是NameNode的内部类，负责维护HDFS中的元数据，包括文件和目录的位置信息。HdfsFileStatus：HdfsFileStatus类是FileStatus类的扩展，存储了更多的HDFS文件的信息，例如文件的块大小、副本数量等。它存储文件的唯一标识符、大小、数据块的位置信息等信息。它存储数据块的唯一标识符、大小、位置等信息。

2022-12-27 18:02:35 305

原创 Spark DiskManager类功能解析

同时，DiskManager还会定期扫描磁盘上的数据块，并在需要时对数据块进行移动和清理。这样可以保证应用程序在磁盘上的数据块读写操作性能较高，并且可以避免在磁盘空间不足时出现应用程序失败的情况。定期执行清理工作：DiskManager会定期执行清理工作，清理的文件是按照LRU（最近最少使用）的原则清理的。管理磁盘上的数据块：DiskManager会维护磁盘上的数据块的分布情况，并在需要时对数据块进行移动和清理。磁盘的读写性能足够高：这样可以避免在磁盘上的数据块读写操作对应用程序的性能产生负面影响。

2022-12-25 18:33:44 165

原创 Sqoop 全量/增量 shell脚本实战案例？

1. 全量导入：#!/bin/bash# 定义变量# 导入数据2. 增量导入：#!/bin/bash# 定义变量# 导入数据。

2022-12-19 19:56:25 413

原创两张上亿的表join,spark sql如何优化？

4、调整spark.sql.inMemoryColumnarStorage.compressed参数，以便更好地判断是否应该使用压缩列存储。7、调整spark.sql.statistics.histogram.enabled参数，以便更好地判断是否应该使用直方图统计。3、调整spark.sql.join.preferSortMergeJoin参数，以便更好地判断是否应该使用排序合并连接。6、调整spark.sql.cbo.enabled参数，以便更好地判断是否应该使用代价优化。

2022-12-18 18:18:39 1701 1

原创 SparkSQL详细的调优步骤及参数配置？

在spark-defaults.conf文件中设置spark.sql.shuffle.partitions参数，该参数控制shuffle操作的分区数，一般设置为每个executor的cores的数量，可以根据实际情况调整。在spark-defaults.conf文件中设置spark.executor.cores参数，该参数控制executor的cores，一般设置为每个executor的cores，可以根据实际情况调整。

2022-12-18 18:15:02 2959

原创 HiveSQL调优手段有哪些?

使用优化器参数，例如 hive.auto.convert.join 和 hive.optimize.sort.dynamic.partition，来调整优化器的行为。使用合适的分桶方式，例如按照经常使用的分组字段分桶。使用合适的存储格式，例如 ORC 或 Parquet，可以提高查询性能。使用合适的数据类型，例如使用 int 或 smallint 来存储较小的数值，以减少存储空间。使用索引提高查询性能，但要注意不要使用过多的索引，否则会影响写入性能。使用外部表存储大量数据，并使用分区存储少量数据。

2022-12-18 11:50:55 473

abxzq19870214的博客