`临在丶`-CSDN博客

原创 spark-submit提交任务报错：java.sql.SQLException:No suitable driver

spark在集群中提交任务时如果需要连接mysql需要设定三个参数，配置连接数据库的jar包

2023-11-24 20:47:34 625

原创 A-3：ZAB(zookeeper原子广播协议)

ZAB协议是专门为Zookeeper设计的一种支持崩溃恢复的原子广播协议，因为当ZAB协议中的Leader角色崩溃时，。

2023-09-02 10:06:05 167

Boolean -> 字符串序列化表示。Double -> 字符串序列化表示。String -> 字符串序列化表示。Long -> 字符串序列化表示。Date -> 字符串序列化表示。KingbaseES 数据类型。PostgreSQL 数据类型。Cassandra 数据类型。SqlServer 数据类型。Phoenix 数据类型。MongoDB 数据类型。ADB PG 数据类型。DataX 内部类型。DataX 内部类型。DataX 内部类型。DataX 内部类型。DataX 内部类型。

2023-08-17 17:53:41 327

原创 JVM重用

使jvm实例在同一个job中重新使用n次

2023-08-11 14:44:49 266

原创 Hive分区修复命令MSCK介绍与使用

批量导入数据：先将linux上的数据放到hdfs上hive分区表对应的路径下，然后运行MSCK命令将表的元数据信息同步到hdfs

2023-08-09 09:38:34 850

原创 hive中的decimal类型

(Decimal)小数点Hive中的DECIMAL类型与Java的Big Decimal格式相同。它用于表示不变的任意精度。

2023-08-09 00:43:27 2222

原创 hive中的复杂数据类型

Array、Map、Struct、组合

2023-08-09 00:27:52 57

原创十大经典排序算法

比较类排序：通过比较来决定元素间的相对次序，由于其时间复杂度不能突破O(nlogn)，因此也称为非线性时间比较类排序。非比较类排序：不通过比较来决定元素间的相对次序，它可以突破基于比较排序的时间下界，以线性时间运行，因此也称为线性时间非比较类排序。

2023-08-08 19:24:00 60

原创 JVM重用

这时JVM的启动过程可能会造成相当大的开销，尤其是执行的job包含有成百上千task任务的情况。如果某个“不平衡的”job中有某几个reduce task执行的时间要比其他Reduce task消耗的时间多的多的话，那么保留的插槽就会一直空闲着却无法被其他的job使用，直到所有的task都结束了才会释放。JVM重用是Hadoop调优参数的内容，其对Hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或task特别多的场景，这类场景大多数执行时间都很短。

2023-08-07 10:36:41 140

原创 kyro序列化

Kryo 是一个快速序列化/反序列化工具，正因如此，其使用也只能限制在基于 JVM 的语言上。- 已经成为多个知名 Java 框架的底层序列化协议，包括但不限于Apache Fluo、Apache Hive、Apache Spark、Storm、Apache Dubo

2023-08-05 16:29:11 304

原创 GC是什么？为什么要有GC？

GC是垃圾收集的意思，java会自动进行管理垃圾收集器

2023-08-04 06:20:55 109

原创 Spark算子—aggregate、aggregateByKey

aggregate算子的执行流程

2023-08-02 03:07:02 300

原创 spark中aggregateByKey的用法及示例

只能作用在kv结构的RDD上，只对value做aggregate算子的处理

2023-08-02 03:04:32 270

原创 Spark中的aggregate算子

初始值、分区内的聚合函数，分区间的聚合函数

2023-08-02 02:59:28 368

原创 repartition 和 coalesce算子

1、区别：coalesce可以指定是否发生shuffle；repartition不能指定，相当coalesce(numPartitions,true)2、应用：增加RDD的分区数就直接使用repartition算子，如果要减少RDD分区数，要使用coalesce(number,false)

2023-08-02 02:36:46 89

原创 SparkRDD算子--coalesce算子

缩减分区数，用于大数据集过滤后，提高小数据集的执行效率

2023-08-02 02:32:29 108

原创 spark中makerdd和parallelize的区别

makeRDD底层还是parallelize() 方法,不同点是makeRDD()方法还提供了最佳的计算位置

2023-08-02 02:27:36 460

原创 spark sql窗口大小设定：rowsBetween方法的使用

通过范围函数可以把计算（比如：sum,min,max,avg等操作）限定在一定的范围（基于当前行的向前或向后的条数）之内。

2023-07-31 09:52:38 530

原创 RDD,DataFrame，DataSet区别

因为一旦我们使用非类型安全的类型，软件的维护周期一长，如果集合中放入了一些不合适的类型，就会出现严重的故障。之前有人把Experience译为体验，但在小猴的技术世界里，Experience更多的是自己去经历，而不能跟团去旅游一样，那样你只能是一个外包而已，想要做到卓越，就得去经历。这个DAG我们看得不是特别清楚做了什么，因为Spark SQL是做过优化的，我们需要查看Query的详细信息，才能看到具体执行的工作。而类型安全就是JVM对象的集合，类型就是scala的样例类，或者是Java的实体类。

2023-07-12 16:50:26 92

临在的博客

原创 spark-submit提交任务报错：java.sql.SQLException:No suitable driver

原创 A-3：ZAB(zookeeper原子广播协议)

原创 datax数据类型与数据库/数仓的对应关系

原创 JVM重用

原创 Hive分区修复命令MSCK介绍与使用

原创 hive中的decimal类型

原创 hive中的复杂数据类型

原创十大经典排序算法

原创 JVM重用

原创 kyro序列化

原创 GC是什么？为什么要有GC？

原创 Spark算子—aggregate、aggregateByKey

原创 spark中aggregateByKey的用法及示例

原创 Spark中的aggregate算子

原创 repartition 和 coalesce算子

原创 SparkRDD算子--coalesce算子

原创 spark中makerdd和parallelize的区别

原创 spark sql窗口大小设定：rowsBetween方法的使用

原创 RDD,DataFrame，DataSet区别

原创 DF中filter和where的区别

原创 flume日志级别

原创 Flume采集端口数据存入kafka

原创编码格式总结

空空如也

空空如也