一座野山-CSDN博客

原创计算销售额中的中位数方法，hivesql实现方法案例

计算销售额中的中位数方法，hivesql实现方法案例

2024-07-21 15:32:37 375

原创 hadoop分布式中某个节点报错的解决案例

hadoop分布式中某个节点报错的解决案例

2024-07-07 09:41:30 794

原创 Spark 中dtypes函数

在Spark SQL中，dtypes函数用于获取DataFrame或Dataset中各列的数据类型信息。它返回一个由列名和数据类型组成的元组列表，其中每个元组表示一列的名称和相应的数据类型。

2024-06-05 11:00:00 338

原创 Esxi的安装问题处理： Failed to verify signatures of the following vib(s)

在安装esxi的时候报错如下图：自己在安装过程中遇到点问题 Failed to verify signatures of the following vib(s) 一番查找，只要在bios里面关闭 Security boot 就可以解决。

2024-06-04 18:38:23 373

原创 pyspark通过shell脚本调起时传递参数

【代码】pyspark通过shell脚本调起时传递参数。

2024-06-04 18:30:54 127

在PySpark中，""是一种注释语法，用于提示Spark优化器在执行查询计划时使用广播变量。广播变量是将数据广播到集群中的所有节点，以便在计算过程中能够更高效地访问数据。在Spark中，默认情况下，优化器会根据数据大小和操作类型来自动选择是否使用广播变量。但是，通过使用"/*+ broadcast(a) */"注释，你可以显式地指示Spark将特定的DataFrame或RDD作为广播变量使用，而不依赖于自动优化。在注释中，"a"是要广播的DataFrame或RDD的名称。

2024-06-04 18:25:35 654

原创 Spark中把所有的列转换成string操作

这段代码使用了Spark SQL中的select函数和列表推导式来选择DataFrame中的所有列，并将它们的数据类型转换为字符串类型。最终，该代码将选择DataFrame中的所有列，并将它们的数据类型转换为字符串类型，以便后续的数据处理和分析。函数，用于创建列对象。如果您在代码中没有包含这个导入语句，请确保添加它，以便正确执行代码。

2024-06-04 18:18:02 507 3

原创在Spark SQL中，fillna函数

在Spark SQL中，fillna函数用于填充DataFrame或Dataset中的缺失值（NULL或NaN）。它可以根据指定的列名和值来替换缺失值，以便进行数据清洗和预处理。在上述示例中，首先创建了一个包含姓名、年龄和身高的DataFrame，并且其中包含了一些缺失值（用None表示）。然后，使用fillna函数将缺失值替换为指定的值。在本例中，我们将年龄的缺失值替换为0，将身高的缺失值替换为0.0。填充后得到的DataFrame存储在filled_df变量中。最后，使用show。

2024-06-04 18:06:31 498

原创 Spark 中repartition和coalesce的区别

在Apache Spark中，和coalesce是两种用于重新分区RDD或DataFrame的转换操作。它们的主要区别在于它们对分区数量的处理方式和使用场景。repartition 是 coalesce shuffle为True的实现。两者使用的场景。首先，repartition 的shuffle比较慢， coalesce 虽然不需要shuffle，但是，指定coalesce保留的partition数目后，只有相应数目的executor-cores 进行合并，其他的核会进行空计算，导致机器利用效率比较低。

2024-06-04 10:10:17 762 2

原创 Spark 性能调优——分布式计算

分布式计算的精髓，在于如何把抽象的计算流图，转化为实实在在的分布式计算任务，然后以并行计算的方式交付执行。今天这一讲，我们就来聊一聊，Spark 是如何实现分布式计算的。分布式计算的实现，离不开两个关键要素，一个是进程模型，另一个是分布式的环境部署。接下来，我们先去探讨 Spark 的进程模型，然后再来介绍 Spark 都有哪些分布式部署方式。

2024-06-04 09:28:51 464

原创 Spark的性能调优——RDD

参数是函数、或者返回值是函数的函数，我们把这类函数统称为“高阶函数”（Higher-order Functions）。换句话说，这 4 个算子，都是高阶函数。// 读取文件内容// 以行为单位做分词// 把RDD元素转换为（Key，Value）的形式// 按照单词做分组计数// 打印词频最高的5个词汇在 RDD 的编程模型中，一共有两种算子，Transformations 类算子和 Actions 类算子。

2024-06-03 13:42:17 672

原创 Spark read load Parquet Files

【代码】Spark read load Parquet Files。

2024-06-03 10:17:39 1004

原创 mysql快速生成百万级测试数据

最近在跟着学习一套开源的电商项目，建了一个项目库所需的数据库。表是有了，但是数据没有。一个电商项目怎么能没有多一点的数据呢，于是决定自己一个表造个几十万数据（总共71个表）。在数据库服务器上执行命令，生成内容为1~100000的文件(修改为自己的文件名称（但是路径不要修改）。登录mysql，并执行。后修改为自己的库名，

2024-05-31 17:27:43 640

原创 Linux 多台机器之间的免密登录设置

【代码】Linux 多台机器之间的免密登录设置。

2024-05-31 17:20:01 325

原创 Linux直接在命令行中向文件中写入大段文本（保留格式）

在 Unix-like 操作系统的 Shell 编程中，文件重定向是一项基础且功能强大的特性，它允许我们将命令的输入和输出流向不同的地方。特别是在脚本编写和自动化任务中，重定向变得尤为重要。本文将介绍两种常用的重定向用法——和，以及它们的功能和原理。在 Bash 中，我们通常看到和>>是覆盖重定向。如果目标文件已存在，它会被新内容覆盖。>>是追加重定向。新内容会被添加到目标文件的末尾，不影响原有内容。

2024-05-31 17:03:40 353

原创如何在CentOS中合理划分磁盘空间以优化系统性能

在进行CentOS系统的安装和配置时，合理划分磁盘空间是确保系统性能、安全性和易于管理的关键步骤。本文将探讨如何根据系统的硬件配置和预期用途来规划分区方案，以及为什么要将特定目录（如/var/tmp/usr等）单独分区。

2024-05-31 14:50:49 666

原创 Centos给普通用户添加sudo命令权限

找到root ALL=(ALL) ALL。lbs为用给予sudo执行权限的用户名。这一行，即如下图标出红线的一行。

2024-05-31 14:43:10 519

原创 centos系统上新建用户

passwd 用户名。

2024-05-31 14:34:14 408

原创如何在centos中关闭swap分区

Swap 分区是 Linux 系统中用于扩展物理内存的一种机制。在物理内存耗尽时，系统可以将部分数据暂时存储到硬盘上的 Swap 空间。然而，在某些性能敏感的应用场景，如实时数据处理或高频交易系统中，使用 Swap 可能导致不可预测的延迟。在这些情况下，完全关闭 Swap 可以帮助保持一致的性能。本文将介绍如何在 CentOS 系统中关闭 Swap 分区，并讨论这样做的潜在影响。关闭 Swap 分区是一种优化高性能应用的方法，可以减少因硬盘访问导致的延迟，从而提高应用的响应速度和可预测性。

2024-05-31 14:23:30 1264

原创基于ES安装IK分词插件

IK分词器插件是为Elasticsearch设计的中文分词插件，由Elasticsearch的官方团队之外的开发者medcl开发。它主要针对中文文本的分词需求，提供了较为准确的中文分词能力。智能分词：IK分词器采用基于词典加双向最大匹配算法的分词策略，能够较为智能地处理中文文本。支持自定义词典：用户可以根据自己的需求，向IK分词器中添加自定义词典，以此来提高分词的准确性。多种分词模式：会将文本做最细粒度的拆分，例如“中华人民共和国国歌”会被拆分为“中华人民共和国, 国歌”。ik_smart。

2024-05-31 13:58:56 627

原创最详细且简单的ElasticSearch (es)集群搭建教程（7.6.2）

ElasticSearch (es)集群搭建教程

2024-05-30 14:35:16 1373

原创在win上进行了分卷，如何在linux上合并及解压

在win上进行了分卷，如何在linux上合并及解压

2024-05-28 11:14:22 410

原创 UNRAID手动备份引导盘方法

unraid 优盘的设置备份

2024-05-07 09:59:01 202

原创 hadoop HDFS常用的命令

先简单理解：用法我先理解为，类似于 linux 命令前面加个如，。

2024-04-14 19:51:31 294

原创在加载插件“sudoers_policy”时在 /etc/sudo.conf 第 19 行出错的解决办法

sudo 权限设定问题

2024-04-14 19:42:30 541

原创快速配置docker 国内源地址

用于快速配置docker国内镜像，和自定义的docker存储路径。

2024-04-14 19:22:32 485

原创群晖各个型号之间有什么特色和区别

都支持24个CPU线程，其它的大部分型号都最多只支持8个线程（DS918、DS920）或16个线程，如果你的CPU核心线程都多的情况下可能会有很多闲置核心，因为他们可能只调用8条线程。当然随着黑群晖系统的迭代更新可能这些限制会被开放，查询你的黑群晖支持多少线程可以看一下这里这类官方硬件自带GPU的产品型号可以调用4-10代intel核显进行转码操作，可以减少低端型号转码时cpu的占用。

2024-02-05 15:32:05 14695

原创黑群晖安装教程-——传统优盘引导制作中问题

群晖传统引导制作教程

2024-02-05 15:09:14 2477

原创只适用于ARPL和其它USB引导写盘

打开后一般正常情况下你只要勾选第1步骤和点写入也不需要你操作什么别的，基本都是全自动选的，参考图片很简单的。如果没有出现你的u盘可以点。拔掉所有u盘可移动磁盘或者usb存储设备，关掉所有磁盘软件例如DiskGenius之类的软件，当然你不做也行出问题不要来找我就ok。打开下载好的压缩包，双击打开USB.exe。2.看一下下边校验是否匹配，不匹配要重新刷。会弹出以下几种窗口直接是就行。1.注意：有提示镜像定稿完成！

2024-02-05 14:36:57 291