自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 KIBANA的安装教程(超详细)

kibana的介绍 和安装教程

2024-05-31 10:35:25 1944

原创 计算销售额中的中位数方法,hivesql实现方法案例

计算销售额中的中位数方法,hivesql实现方法案例

2024-07-21 15:32:37 375

原创 Flink集群搭建教程最详细最简单一看就会

Flink集群搭建

2024-07-19 14:27:39 906

原创 Hive 高可用分布式部署详细步骤

hive高可用分布式部署详细教程

2024-07-07 17:07:18 978

原创 高可用hadoop分布式节点的扩容

解决方案。

2024-07-07 09:48:47 419

原创 hadoop分布式中某个 节点报错的解决案例

hadoop分布式中某个 节点报错的解决案例

2024-07-07 09:41:30 794

原创 Centos 安装mysql非常详细的安装教程 傻瓜式

安装mysql全面教程

2024-06-25 10:38:48 301

原创 Spark 中dtypes函数

在Spark SQL中,dtypes函数用于获取DataFrame或Dataset中各列的数据类型信息。它返回一个由列名和数据类型组成的元组列表,其中每个元组表示一列的名称和相应的数据类型。

2024-06-05 11:00:00 338

原创 Esxi的安装问题处理: Failed to verify signatures of the following vib(s)

在安装esxi的时候报错如下图:自己在安装过程中遇到点问题 Failed to verify signatures of the following vib(s) 一番查找,只要在bios里面关闭 Security boot 就可以解决。

2024-06-04 18:38:23 373

原创 pyspark通过shell脚本调起时传递参数

【代码】pyspark通过shell脚本调起时传递参数。

2024-06-04 18:30:54 127

原创 Spark中广播的使用

在PySpark中,""是一种注释语法,用于提示Spark优化器在执行查询计划时使用广播变量。广播变量是将数据广播到集群中的所有节点,以便在计算过程中能够更高效地访问数据。在Spark中,默认情况下,优化器会根据数据大小和操作类型来自动选择是否使用广播变量。但是,通过使用"/*+ broadcast(a) */"注释,你可以显式地指示Spark将特定的DataFrame或RDD作为广播变量使用,而不依赖于自动优化。在注释中,"a"是要广播的DataFrame或RDD的名称。

2024-06-04 18:25:35 654

原创 Spark中把所有的列转换成string操作

这段代码使用了Spark SQL中的select函数和列表推导式来选择DataFrame中的所有列,并将它们的数据类型转换为字符串类型。最终,该代码将选择DataFrame中的所有列,并将它们的数据类型转换为字符串类型,以便后续的数据处理和分析。函数,用于创建列对象。如果您在代码中没有包含这个导入语句,请确保添加它,以便正确执行代码。

2024-06-04 18:18:02 507 3

原创 在Spark SQL中,fillna函数

在Spark SQL中,fillna函数用于填充DataFrame或Dataset中的缺失值(NULL或NaN)。它可以根据指定的列名和值来替换缺失值,以便进行数据清洗和预处理。在上述示例中,首先创建了一个包含姓名、年龄和身高的DataFrame,并且其中包含了一些缺失值(用None表示)。然后,使用fillna函数将缺失值替换为指定的值。在本例中,我们将年龄的缺失值替换为0,将身高的缺失值替换为0.0。填充后得到的DataFrame存储在filled_df变量中。最后,使用show。

2024-06-04 18:06:31 498

原创 Spark 中repartition和coalesce的区别

在Apache Spark中,和coalesce是两种用于重新分区RDD或DataFrame的转换操作。它们的主要区别在于它们对分区数量的处理方式和使用场景。repartition 是 coalesce shuffle为True的实现。两者使用的场景。首先,repartition 的shuffle比较慢, coalesce 虽然不需要shuffle,但是,指定coalesce保留的partition数目后,只有相应数目的executor-cores 进行合并,其他的核会进行空计算,导致机器利用效率比较低。

2024-06-04 10:10:17 762 2

原创 Spark 性能调优——分布式计算

分布式计算的精髓,在于如何把抽象的计算流图,转化为实实在在的分布式计算任务,然后以并行计算的方式交付执行。今天这一讲,我们就来聊一聊,Spark 是如何实现分布式计算的。分布式计算的实现,离不开两个关键要素,一个是进程模型,另一个是分布式的环境部署。接下来,我们先去探讨 Spark 的进程模型,然后再来介绍 Spark 都有哪些分布式部署方式。

2024-06-04 09:28:51 464

原创 Spark的性能调优——RDD

参数是函数、或者返回值是函数的函数,我们把这类函数统称为“高阶函数”(Higher-order Functions)。换句话说,这 4 个算子,都是高阶函数。// 读取文件内容// 以行为单位做分词// 把RDD元素转换为(Key,Value)的形式// 按照单词做分组计数// 打印词频最高的5个词汇在 RDD 的编程模型中,一共有两种算子,Transformations 类算子和 Actions 类算子。

2024-06-03 13:42:17 672

原创 Spark read load Parquet Files

【代码】Spark read load Parquet Files。

2024-06-03 10:17:39 1004

原创 mysql快速生成百万级测试数据

最近在跟着学习一套开源的电商项目,建了一个项目库所需的数据库。表是有了,但是数据没有。一个电商项目怎么能没有多一点的数据呢,于是决定自己一个表造个几十万数据(总共71个表)。在数据库服务器上执行命令,生成内容为1~100000的文件(修改为自己的文件名称(但是路径不要修改)。登录mysql,并执行。后修改为自己的库名,

2024-05-31 17:27:43 640

原创 Linux 多台机器之间的免密登录设置

【代码】Linux 多台机器之间的免密登录设置。

2024-05-31 17:20:01 325

原创 Linux直接在命令行中向文件中写入大段文本(保留格式)

在 Unix-like 操作系统的 Shell 编程中,文件重定向是一项基础且功能强大的特性,它允许我们将命令的输入和输出流向不同的地方。特别是在脚本编写和自动化任务中,重定向变得尤为重要。本文将介绍两种常用的重定向用法——和,以及它们的功能和原理。在 Bash 中,我们通常看到和>>是覆盖重定向。如果目标文件已存在,它会被新内容覆盖。>>是追加重定向。新内容会被添加到目标文件的末尾,不影响原有内容。

2024-05-31 17:03:40 353

原创 如何在CentOS中合理划分磁盘空间以优化系统性能

在进行CentOS系统的安装和配置时,合理划分磁盘空间是确保系统性能、安全性和易于管理的关键步骤。本文将探讨如何根据系统的硬件配置和预期用途来规划分区方案,以及为什么要将特定目录(如/var/tmp/usr等)单独分区。

2024-05-31 14:50:49 666

原创 Centos给普通用户添加sudo命令权限

找到root ALL=(ALL) ALL。lbs为用给予sudo执行权限的用户名。这一行,即如下图标出红线的一行。

2024-05-31 14:43:10 519

原创 centos系统上新建用户

passwd 用户名。

2024-05-31 14:34:14 408

原创 如何在centos中关闭swap分区

Swap 分区是 Linux 系统中用于扩展物理内存的一种机制。在物理内存耗尽时,系统可以将部分数据暂时存储到硬盘上的 Swap 空间。然而,在某些性能敏感的应用场景,如实时数据处理或高频交易系统中,使用 Swap 可能导致不可预测的延迟。在这些情况下,完全关闭 Swap 可以帮助保持一致的性能。本文将介绍如何在 CentOS 系统中关闭 Swap 分区,并讨论这样做的潜在影响。关闭 Swap 分区是一种优化高性能应用的方法,可以减少因硬盘访问导致的延迟,从而提高应用的响应速度和可预测性。

2024-05-31 14:23:30 1264

原创 基于ES安装IK分词插件

IK分词器插件是为Elasticsearch设计的中文分词插件,由Elasticsearch的官方团队之外的开发者medcl开发。它主要针对中文文本的分词需求,提供了较为准确的中文分词能力。智能分词:IK分词器采用基于词典加双向最大匹配算法的分词策略,能够较为智能地处理中文文本。支持自定义词典:用户可以根据自己的需求,向IK分词器中添加自定义词典,以此来提高分词的准确性。多种分词模式:会将文本做最细粒度的拆分,例如“中华人民共和国国歌”会被拆分为“中华人民共和国, 国歌”。ik_smart。

2024-05-31 13:58:56 627

原创 最详细且简单的ElasticSearch (es)集群搭建教程(7.6.2)

ElasticSearch (es)集群搭建教程

2024-05-30 14:35:16 1373

原创 在win上进行了分卷,如何在linux上合并及解压

在win上进行了分卷,如何在linux上合并及解压

2024-05-28 11:14:22 410

原创 UNRAID手动备份引导盘方法

unraid 优盘的设置备份

2024-05-07 09:59:01 202

原创 hadoop HDFS常用的命令

先简单理解:用法我先理解为,类似于 linux 命令前面加个如,。

2024-04-14 19:51:31 294

原创 在加载插件“sudoers_policy”时在 /etc/sudo.conf 第 19 行出错 的解决办法

sudo 权限设定问题

2024-04-14 19:42:30 541

原创 快速配置docker 国内源地址

用于快速配置docker国内镜像,和自定义的docker存储路径。

2024-04-14 19:22:32 485

原创 群晖各个型号之间有什么特色和区别

都支持24个CPU线程,其它的大部分型号都最多只支持8个线程(DS918、DS920)或16个线程,如果你的CPU核心线程都多的情况下可能会有很多闲置核心,因为他们可能只调用8条线程。当然随着黑群晖系统的迭代更新可能这些限制会被开放,查询你的黑群晖支持多少线程可以看一下这里这类官方硬件自带GPU的产品型号可以调用4-10代intel核显进行转码操作,可以减少低端型号转码时cpu的占用。

2024-02-05 15:32:05 14695

原创 黑群晖安装教程-——传统优盘引导制作中问题

群晖传统引导制作教程

2024-02-05 15:09:14 2477

原创 只适用于ARPL和其它USB引导写盘

打开后一般正常情况下你只要勾选第1步骤和点 写入 也不需要你操作什么别的,基本都是全自动选的,参考图片很简单的。如果没有出现你的u盘可以点。拔掉所有u盘 可移动磁盘或者usb存储设备,关掉所有磁盘软件例如DiskGenius之类的软件,当然你不做也行出问题不要来找我就ok。打开下载好的压缩包,双击打开USB.exe。2.看一下下边校验是否匹配,不匹配要重新刷。会弹出以下几种窗口直接 是 就行。1.注意:有提示镜像定稿完成!

2024-02-05 14:36:57 291

原创 TAD1581M专用群晖引导

TAD1581M专用群晖引导

2024-02-05 10:57:00 598

原创 iLO 安装中文固件包

前言安装中文版本的安装包,需要把对应的ilo安装到固定的版本上,ilo的版本是2.70。必须是这个版本;如果不是这个版本就需要刷到对应的ilo版本下载对应的固件包。到这个界面选择文件,然后点击上载。以上就是刷系统包的步骤。

2024-01-23 17:25:45 540

原创 iLo 激活码输入激活教程

在如上的位置输入已经购买的激活码。

2024-01-23 17:13:08 822

原创 关于Alist网盘点美化

关于Alist网盘点美化

2024-01-22 14:43:20 1713

原创 固定群晖DT型号硬盘顺序让它不会每次重启都变化

固定群晖DT型号硬盘顺序让它不会每次重启都变化

2024-01-17 10:32:12 751

原创 ARPL群晖引导中DT的型号与非DT型号区别

ARPL群晖引导中DT的型号与非DT型号区别

2024-01-17 10:26:28 1658

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除