自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

转载 什么是token? 为什么使用token?

Token是服务端生成的一串字符串,以作客户端进行请求的一个令牌,当第一次登录后,服务器生成一个Token便将此Token返回给客户端,以后客户端只需带上这个Token前来请求数据即可,无需再次带上用户名和密码。token其实说的更通俗点可以叫暗号,在一些数据传输之前,要先进行暗号的核对,不同的暗号被授权不同的数据操作。

2023-05-08 09:29:55 434

转载 kafka 消息保留机制

的值设置为1GB,如果消息字节总数在不到一天的时间就超过了1GB,那么堆出来的部分就会被删除,相反,如果消息字节总数小与1GB,那么一天之后这些消息也会被删除,尽管分区的数据总量小于1GB。如果同时指定了两个参数没只要任意一个参数得到满足,消息就会被删除。为86400000(也就是一天),

2023-05-05 15:14:26 1726

转载 kafka中修改某个主题中数据的保留时间

但是有的时候我们需要对某一个主题的消息存留的时间进行变更,而不影响其他主题。且kafka集群不用重启。修改完成之后可以使用–describe查看是否修改成功。中默认消息的保留时间是7天,若想更改,需在配置文件。使得主题的留存时间保存为5天。

2023-05-05 11:22:36 1793

转载 Hbase 的架构组成

的内存数据存储,数据的写操作会先写到 MemStore 中,当MemStore 中的数据增长到一个阈值(默认64M)后,Region Server 会启动 flasheatch 进程将 MemStore 中的数据写人 StoreFile 持久化存储,每次写入后都形成一个单独的 StoreFile。维护数据:发现失效的 Region,并将失效的 Region 分配到正常的 RegionServer 上,并且在Region Sever 失效的时候,协调对应的HLog进行任务的拆分。它的架构组成如下图所示。

2022-09-16 15:54:22 821

转载 linux查看磁盘使用情况命令

其中df -h和du -sh使用的比较多,一个统计整体磁盘情况,一个看单独目录点用情况,而命令查看了目录下文件夹占用情况,使用比较少,可以用du -sh代替,而且命令较长,当然并不是说它没用。

2022-08-13 02:01:46 1919

转载 阿里云centos删除mysql数据库_阿里云的服务器 Centos 下 MySQL 安装卸载(yum)

4、再打开一个 shell 窗口,在安装的 MongoDB 文件夹下的 bin 目录中输入如下命令,连接 MongoDB 服务器,作为客户端进行操作。** 3、查找之前老版本 MySQL 的目录、并且删除老版本 MySQL 的文件和库 **3、加入开机启动(就是电脑启动的时候,自动启动 MySQL 服务)** 2、停止 MySQL 服务、删除之前安装的 MySQL **** 1、使用以下命令查看当前安装 MySQL 情况 **6、开启一个新的 shell 窗口,链接数据库。一、MySQL 的安装和配置。..

2022-08-12 22:01:16 407

转载 Windows安装NetCat

下载后的文件如下,有可能改文件会被识别为木马病毒,要将其找回即可。MicrosoftCorporation。右键此电脑-->属性-->高级系统设置-->环境变量。'nc'不是内部或外部命令,也不是可运行的程序。Window+R重新启动cmd命令窗口。Window系统默认没有安装NetCat,在。命令窗口输入nc提示不是内部或外部命令。测试输入nc-l-p9999。右键zip文件-->解压到当前文件夹。确定-->确定-->确定。1.下载NetCat。...

2022-07-27 10:56:16 1122

转载 一文看懂Spark中reduceByKey 和 groupByKey 的区别

而reduceByKey是有聚合功能的,实现过程中,在分组前也同样满足聚合条件(有相同的key,value能聚合),那么reduceByKey是不是在分组前就将数据先进行聚合了呢?从功能上来说,都有分组,只是reduceByKey有聚合操作,而groupbykey没有聚合操作,它的聚合是通过增加map操作来实现的,所以看似也没多大区别。groupByKey只能分组,不能聚合,所以在分组聚合的场合下,推荐使用reduceByKey,如果仅仅是分组而不需要聚合,那么还是只能使用groupByKey。...

2022-07-24 00:09:47 152

转载 什么是shuffle?为什么shuffle?什么算子需要shuffle?

对于reduce来说,处理函数的输入是key相同的所有value,但是这些value所在的数据集(即map的输出)位于不同的节点上,因此需要对map的输出进行重新组织,使得同样的key进入相同的reducer。shuffle移动了大量的数据,对计算、内存、网络和磁盘都有巨大的消耗,因此,只有确实需要shuffle的地方才应该进行shuffle,否则尽可能避免shuffle。重分区一般会shuffle,因为需要在整个集群中,对之前所有的分区的数据进行随机,均匀的打乱,然后把数据放入下游新的指定数量的分区内。.

2022-07-24 00:03:14 795

转载 Spark mapPartitions、map、foreachPartition、foreach算子的区别、误区和正确用法

Spark mapPartitions、map、foreachPartition、foreach算子的区别、误区和正确用法

2022-07-20 06:26:06 665

转载 org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory

解决方式:hdfs dfsadmin -safemode leave 关闭安全模式即可报错如下 :Logging initialized using configuration in jar:file:/opt/modules/apache-hive-3.0.0-bin/lib/hive-common-3.0.0.jar!/hive-log4j2.properties Async: trueException in thread "main" java.lang.RuntimeException: org.

2022-07-04 10:40:47 2592 1

转载 Spark 中的 aggregateByKey

直译过来是 按照 Key 进行聚合源码如下:说明:第一个参数是, 给每一个分区中的每一种key一个初始值 第二个是个函数, Seq Function, 这个函数就是用来先对每个分区内的数据按照 key 分别进行定义进行函数定义的操作 第三个是个函数, Combiner Function, 对经过 Seq Function 处理过的数据按照 key 分别进行进行函数定义的操作也可以自定义分区器, 分区器有默认值整个流程就是:在 kv 对的 RDD 中,按 key 将 value 进行分组合并,合并时,将每个

2022-06-11 21:34:40 714

转载 Spark的算子的分类

从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。   Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。   Action 算子会触发 Spark 提交作业(Job),并将数据

2022-06-11 10:00:23 5199 1

转载 Scala中的样例类

/** * 样例类Case Class * Case Class一般被翻译成样例类,它是一种特殊的类,能够被优化以用于模式匹配。 * 当一个类被声名为case class的时候,scala会帮助我们做下面几件事情: * 1、构造器中的参数如果不被声明为var的话,它默认的是val类型的,但一般不推荐将构造器中的参数声明为var。 * 2、自动创建伴生对象,同时在里面给我们实现子apply方法,使我们在使用的时候可以不直接使用new创建对象。 * 3、伴生对象中同样会帮我们实现unap

2022-06-08 01:48:05 369

转载 DataX 简介及架构原理

DataX 简介及架构原理 概述 DataX是阿里巴巴使用 Java 和 Python 开发的一个异构数据源离线同步工具 异构数据源:不同存储结构的数据源 致力于实现包括关系型数据库 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS...

2022-05-24 08:26:22 9959

转载 count(1)、count(*)、count(列名) 详解

一、执行效果: 1.  count(1) and count(*) 当表的数据量大些时,对表作分析之后,使用count(1)还要比使用count(*)用时多了!  从执行计划来看,count(1)和count(*)的效果是一样的。 但是在表做过分析之后,count(1)会比count(*)的用时少些(1w以内数据量),不过差不了多少。    如果count(1)是聚索引,id,那肯定是count(1)快。但是差的...

2022-05-15 13:43:02 993

转载 DDL与DML的区别

DML(Data Manipulation Language)数据操纵语言:适用范围:对数据库中的数据进行一些简单操作,如insert,delete,update,select等. DDL(Data Definition Language)数据定义语言:适用范围:对数据库中的某些对象(例如,database,table)进行管理,如Create,Alter和Drop.一、DDL(数据定义语言,Data Definition Language...

2022-05-09 02:26:48 121

转载 BS架构和CS架构的优缺点

1、CS、BS架构定义   CS(Client/Server):客户端----服务器结构。C/S结构在技术上很成熟,它的主要特点是交互性强、具有安全的存取模式、网络通信量低、响应速度快、利于处理大量数据。因为客户端要负责绝大多数的业务逻辑和UI展示,又称为胖客户端。它充分利用两端硬件,将任务分配到Client 和Server两端,降低了系统的通讯开销。C/S结构的软件需要针对不同的操作系统系统开发不同版本的...

2022-05-06 20:52:41 11781

转载 JDBC详细介绍

目录 前言 JDBC介绍 JDBC编程步骤  1.装载相应的数据库的JDBC驱动并进行初始化 2.建立JDBC和数据库之间的Connection连接 3.创建Statement或者PreparedStatement接口,执行SQL语句 4.处理和显示结果 5.释放资源 Statement和PreparedStatement的异同及优缺点 execute和executeUpdate的区别...

2022-05-06 17:28:22 515

转载 什么是URL

1.概念 在WWW上,每一信息资源都有统一的且在网上唯一的地址,该地址就叫URL(Uniform Resource Locator,统一资源定位符),它是WWW的统一资源定位标志,就是指网络地址。 2.组成 URL由三部分组成:资源类型、存放资源的主机域名、资源文件名。 也可认为由4部分组成:协议、主机、端口、路径。很多时候端口都是...

2022-05-06 01:06:43 135

转载 TCP长连接(KeepAlive)

转自:https://blog.csdn.net/chrisnotfound/article/details/80111559 1. TCP Keepalive的起源 TCP协议中有长连接和短连接之分。 短连接环境下,数据交互完毕后,主动释放连接; 长连接的环境下,进行一次数据交...

2022-05-05 18:11:32 996

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除