King_S_H-CSDN博客

转载什么是token？为什么使用token？

Token是服务端生成的一串字符串，以作客户端进行请求的一个令牌，当第一次登录后，服务器生成一个Token便将此Token返回给客户端，以后客户端只需带上这个Token前来请求数据即可，无需再次带上用户名和密码。token其实说的更通俗点可以叫暗号，在一些数据传输之前，要先进行暗号的核对，不同的暗号被授权不同的数据操作。

2023-05-08 09:29:55 591

转载 kafka 消息保留机制

的值设置为1GB，如果消息字节总数在不到一天的时间就超过了1GB，那么堆出来的部分就会被删除，相反，如果消息字节总数小与1GB，那么一天之后这些消息也会被删除，尽管分区的数据总量小于1GB。如果同时指定了两个参数没只要任意一个参数得到满足，消息就会被删除。为86400000（也就是一天），

2023-05-05 15:14:26 2231

转载 kafka中修改某个主题中数据的保留时间

但是有的时候我们需要对某一个主题的消息存留的时间进行变更，而不影响其他主题。且kafka集群不用重启。修改完成之后可以使用–describe查看是否修改成功。中默认消息的保留时间是7天，若想更改，需在配置文件。使得主题的留存时间保存为5天。

2023-05-05 11:22:36 2556

的内存数据存储，数据的写操作会先写到 MemStore 中，当MemStore 中的数据增长到一个阈值（默认64M）后，Region Server 会启动 flasheatch 进程将 MemStore 中的数据写人 StoreFile 持久化存储，每次写入后都形成一个单独的 StoreFile。维护数据：发现失效的 Region，并将失效的 Region 分配到正常的 RegionServer 上，并且在Region Sever 失效的时候，协调对应的HLog进行任务的拆分。它的架构组成如下图所示。

2022-09-16 15:54:22 995

转载 linux查看磁盘使用情况命令

其中df -h和du -sh使用的比较多，一个统计整体磁盘情况，一个看单独目录点用情况，而命令查看了目录下文件夹占用情况，使用比较少，可以用du -sh代替，而且命令较长，当然并不是说它没用。

2022-08-13 02:01:46 2053

转载阿里云centos删除mysql数据库_阿里云的服务器 Centos 下 MySQL 安装卸载（yum）

4、再打开一个 shell 窗口，在安装的 MongoDB 文件夹下的 bin 目录中输入如下命令，连接 MongoDB 服务器，作为客户端进行操作。** 3、查找之前老版本 MySQL 的目录、并且删除老版本 MySQL 的文件和库 **3、加入开机启动(就是电脑启动的时候，自动启动 MySQL 服务)** 2、停止 MySQL 服务、删除之前安装的 MySQL **** 1、使用以下命令查看当前安装 MySQL 情况 **6、开启一个新的 shell 窗口，链接数据库。一、MySQL 的安装和配置。..

2022-08-12 22:01:16 473

转载 Windows安装NetCat

下载后的文件如下，有可能改文件会被识别为木马病毒，要将其找回即可。MicrosoftCorporation。右键此电脑-->属性-->高级系统设置-->环境变量。'nc'不是内部或外部命令，也不是可运行的程序。Window+R重新启动cmd命令窗口。Window系统默认没有安装NetCat，在。命令窗口输入nc提示不是内部或外部命令。测试输入nc-l-p9999。右键zip文件-->解压到当前文件夹。确定-->确定-->确定。1.下载NetCat。...

2022-07-27 10:56:16 1627

转载一文看懂Spark中reduceByKey 和 groupByKey 的区别

而reduceByKey是有聚合功能的，实现过程中，在分组前也同样满足聚合条件（有相同的key，value能聚合），那么reduceByKey是不是在分组前就将数据先进行聚合了呢？从功能上来说，都有分组，只是reduceByKey有聚合操作，而groupbykey没有聚合操作，它的聚合是通过增加map操作来实现的，所以看似也没多大区别。groupByKey只能分组，不能聚合，所以在分组聚合的场合下，推荐使用reduceByKey，如果仅仅是分组而不需要聚合，那么还是只能使用groupByKey。...

2022-07-24 00:09:47 217

转载什么是shuffle？为什么shuffle？什么算子需要shuffle？

对于reduce来说，处理函数的输入是key相同的所有value，但是这些value所在的数据集(即map的输出)位于不同的节点上，因此需要对map的输出进行重新组织，使得同样的key进入相同的reducer。shuffle移动了大量的数据，对计算、内存、网络和磁盘都有巨大的消耗，因此，只有确实需要shuffle的地方才应该进行shuffle，否则尽可能避免shuffle。重分区一般会shuffle，因为需要在整个集群中，对之前所有的分区的数据进行随机，均匀的打乱，然后把数据放入下游新的指定数量的分区内。.

2022-07-24 00:03:14 972

转载 Spark mapPartitions、map、foreachPartition、foreach算子的区别、误区和正确用法

Spark mapPartitions、map、foreachPartition、foreach算子的区别、误区和正确用法

2022-07-20 06:26:06 782

转载 org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory

解决方式：hdfs dfsadmin -safemode leave 关闭安全模式即可报错如下：Logging initialized using configuration in jar:file:/opt/modules/apache-hive-3.0.0-bin/lib/hive-common-3.0.0.jar!/hive-log4j2.properties Async: trueException in thread "main" java.lang.RuntimeException: org.

2022-07-04 10:40:47 3014 1

转载 Spark 中的 aggregateByKey

直译过来是按照 Key 进行聚合源码如下:说明:第一个参数是，给每一个分区中的每一种key一个初始值第二个是个函数， Seq Function，这个函数就是用来先对每个分区内的数据按照 key 分别进行定义进行函数定义的操作第三个是个函数， Combiner Function，对经过 Seq Function 处理过的数据按照 key 分别进行进行函数定义的操作也可以自定义分区器, 分区器有默认值整个流程就是:在 kv 对的 RDD 中，按 key 将 value 进行分组合并，合并时，将每个

2022-06-11 21:34:40 835

转载 Spark的算子的分类

从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。　　　Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。 2）Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。　　 Action 算子会触发 Spark 提交作业（Job），并将数据

2022-06-11 10:00:23 6058 1

转载 Scala中的样例类

/** * 样例类Case Class * Case Class一般被翻译成样例类，它是一种特殊的类，能够被优化以用于模式匹配。 * 当一个类被声名为case class的时候，scala会帮助我们做下面几件事情： * 1、构造器中的参数如果不被声明为var的话，它默认的是val类型的，但一般不推荐将构造器中的参数声明为var。 * 2、自动创建伴生对象，同时在里面给我们实现子apply方法，使我们在使用的时候可以不直接使用new创建对象。 * 3、伴生对象中同样会帮我们实现unap

2022-06-08 01:48:05 438

转载 DataX 简介及架构原理

DataX 简介及架构原理概述 DataX是阿里巴巴使用 Java 和 Python 开发的一个异构数据源离线同步工具异构数据源：不同存储结构的数据源致力于实现包括关系型数据库 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS...

2022-05-24 08:26:22 10330

转载 count(1)、count(*)、count(列名) 详解

一、执行效果： 1. count(1) and count(*) 当表的数据量大些时，对表作分析之后，使用count(1)还要比使用count(*)用时多了！从执行计划来看，count(1)和count(*)的效果是一样的。但是在表做过分析之后，count(1)会比count(*)的用时少些（1w以内数据量），不过差不了多少。如果count(1)是聚索引,id,那肯定是count(1)快。但是差的...

2022-05-15 13:43:02 1097

转载 DDL与DML的区别

DML(Data Manipulation Language)数据操纵语言：适用范围：对数据库中的数据进行一些简单操作，如insert,delete,update,select等. DDL(Data Definition Language)数据定义语言：适用范围：对数据库中的某些对象(例如，database,table)进行管理，如Create,Alter和Drop.一、DDL(数据定义语言,Data Definition Language...

2022-05-09 02:26:48 183

转载 BS架构和CS架构的优缺点

1、CS、BS架构定义　　CS（Client/Server）：客户端----服务器结构。C/S结构在技术上很成熟，它的主要特点是交互性强、具有安全的存取模式、网络通信量低、响应速度快、利于处理大量数据。因为客户端要负责绝大多数的业务逻辑和UI展示，又称为胖客户端。它充分利用两端硬件，将任务分配到Client 和Server两端，降低了系统的通讯开销。C/S结构的软件需要针对不同的操作系统系统开发不同版本的...

2022-05-06 20:52:41 12189

转载 JDBC详细介绍

目录前言 JDBC介绍 JDBC编程步骤 1.装载相应的数据库的JDBC驱动并进行初始化 2.建立JDBC和数据库之间的Connection连接 3.创建Statement或者PreparedStatement接口，执行SQL语句 4.处理和显示结果 5.释放资源 Statement和PreparedStatement的异同及优缺点 execute和executeUpdate的区别...

2022-05-06 17:28:22 789

转载什么是URL

1.概念在WWW上，每一信息资源都有统一的且在网上唯一的地址，该地址就叫URL（Uniform Resource Locator,统一资源定位符），它是WWW的统一资源定位标志，就是指网络地址。 2.组成 URL由三部分组成：资源类型、存放资源的主机域名、资源文件名。也可认为由4部分组成：协议、主机、端口、路径。很多时候端口都是...

2022-05-06 01:06:43 201