自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 spark-submit提交任务报错:java.sql.SQLException:No suitable driver

spark在集群中提交任务时如果需要连接mysql需要设定三个参数,配置连接数据库的jar包

2023-11-24 20:47:34 504

原创 A-3:ZAB(zookeeper原子广播协议)

ZAB协议是专门为Zookeeper设计的一种支持崩溃恢复的原子广播协议,因为当ZAB协议中的Leader角色崩溃时,。

2023-09-02 10:06:05 107

原创 datax数据类型与数据库/数仓的对应关系

Boolean -> 字符串序列化表示。Double -> 字符串序列化表示。String -> 字符串序列化表示。Long -> 字符串序列化表示。Date -> 字符串序列化表示。KingbaseES 数据类型。PostgreSQL 数据类型。Cassandra 数据类型。SqlServer 数据类型。Phoenix 数据类型。MongoDB 数据类型。ADB PG 数据类型。DataX 内部类型。DataX 内部类型。DataX 内部类型。DataX 内部类型。DataX 内部类型。

2023-08-17 17:53:41 198

原创 JVM重用

使jvm实例在同一个job中重新使用n次

2023-08-11 14:44:49 157

原创 Hive分区修复命令MSCK介绍与使用

批量导入数据:先将linux上的数据放到hdfs上hive分区表对应的路径下,然后运行MSCK命令将表的元数据信息同步到hdfs

2023-08-09 09:38:34 655

原创 hive中的decimal类型

(Decimal)小数点Hive中的DECIMAL类型与Java的Big Decimal格式相同。它用于表示不变的任意精度。

2023-08-09 00:43:27 1344

原创 hive中的复杂数据类型

Array、Map、Struct、组合

2023-08-09 00:27:52 26

原创 十大经典排序算法

比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn),因此也称为非线性时间比较类排序。非比较类排序:不通过比较来决定元素间的相对次序,它可以突破基于比较排序的时间下界,以线性时间运行,因此也称为线性时间非比较类排序。

2023-08-08 19:24:00 27

原创 JVM重用

这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。如果某个“不平衡的”job中有某几个reduce task执行的时间要比其他Reduce task消耗的时间多的多的话,那么保留的插槽就会一直空闲着却无法被其他的job使用,直到所有的task都结束了才会释放。JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。

2023-08-07 10:36:41 69

原创 kyro序列化

Kryo 是一个快速序列化/反序列化工具,正因如此,其使用也只能限制在基于 JVM 的语言上。- 已经成为多个知名 Java 框架的底层序列化协议,包括但不限于Apache Fluo、Apache Hive、Apache Spark、Storm、Apache Dubo

2023-08-05 16:29:11 218

原创 GC是什么?为什么要有GC?

GC是垃圾收集的意思,java会自动进行管理垃圾收集器

2023-08-04 06:20:55 65

原创 Spark算子—aggregate、aggregateByKey

aggregate算子的执行流程

2023-08-02 03:07:02 179

原创 spark中aggregateByKey的用法及示例

只能作用在kv结构的RDD上,只对value做aggregate算子的处理

2023-08-02 03:04:32 183

原创 Spark中的aggregate算子

初始值、分区内的聚合函数,分区间的聚合函数

2023-08-02 02:59:28 254

原创 repartition 和 coalesce算子

1、区别:coalesce可以指定是否发生shuffle;repartition不能指定,相当coalesce(numPartitions,true)2、应用:增加RDD的分区数就直接使用repartition算子,如果要减少RDD分区数,要使用coalesce(number,false)

2023-08-02 02:36:46 38

原创 SparkRDD算子--coalesce算子

缩减分区数,用于大数据集过滤后,提高小数据集的执行效率

2023-08-02 02:32:29 58

原创 spark中makerdd和parallelize的区别

makeRDD底层还是parallelize() 方法,不同点是makeRDD()方法还提供了最佳的计算位置

2023-08-02 02:27:36 207

原创 spark sql窗口大小设定:rowsBetween方法的使用

通过范围函数可以把计算(比如:sum,min,max,avg等操作)限定在一定的范围(基于当前行的向前或向后的条数)之内。

2023-07-31 09:52:38 366

原创 RDD,DataFrame,DataSet区别

因为一旦我们使用非类型安全的类型,软件的维护周期一长,如果集合中放入了一些不合适的类型,就会出现严重的故障。之前有人把Experience译为体验,但在小猴的技术世界里,Experience更多的是自己去经历,而不能跟团去旅游一样,那样你只能是一个外包而已,想要做到卓越,就得去经历。这个DAG我们看得不是特别清楚做了什么,因为Spark SQL是做过优化的,我们需要查看Query的详细信息,才能看到具体执行的工作。而类型安全就是JVM对象的集合,类型就是scala的样例类,或者是Java的实体类。

2023-07-12 16:50:26 51

原创 DF中filter和where的区别

总的来说,filter和where都是用来筛选DataFrame中数据的函数,它们的基本功能相同,但在具体实现方式和一些细节上有所不同。

2023-07-10 00:54:51 783

原创 flume日志级别

运行日志的级别优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG

2023-07-07 20:17:33 119

原创 Flume采集端口数据存入kafka

设置监听本地端口10050 netcat发送的socket数据,将采集到的数据存入kafka的mytopic主题中

2023-07-07 19:12:03 577

原创 编码格式总结

ANSI、Unicode、UTF-8

2023-07-07 13:56:41 34

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除