spark
文章平均质量分 57
spark core、spark sql、spark streaming、Mllib、Graphx
`临在丶`
这个作者很懒,什么都没留下…
展开
-
spark-submit提交任务报错:java.sql.SQLException:No suitable driver
spark在集群中提交任务时如果需要连接mysql需要设定三个参数,配置连接数据库的jar包原创 2023-11-24 20:47:34 · 560 阅读 · 0 评论 -
JVM重用
使jvm实例在同一个job中重新使用n次原创 2023-08-11 14:44:49 · 185 阅读 · 0 评论 -
kyro序列化
Kryo 是一个快速序列化/反序列化工具,正因如此,其使用也只能限制在基于 JVM 的语言上。- 已经成为多个知名 Java 框架的底层序列化协议,包括但不限于Apache Fluo、Apache Hive、Apache Spark、Storm、Apache Dubo原创 2023-08-05 16:29:11 · 255 阅读 · 0 评论 -
Spark算子—aggregate、aggregateByKey
aggregate算子的执行流程原创 2023-08-02 03:07:02 · 229 阅读 · 0 评论 -
spark中aggregateByKey的用法及示例
只能作用在kv结构的RDD上,只对value做aggregate算子的处理原创 2023-08-02 03:04:32 · 217 阅读 · 0 评论 -
Spark中的aggregate算子
初始值、分区内的聚合函数,分区间的聚合函数原创 2023-08-02 02:59:28 · 298 阅读 · 0 评论 -
repartition 和 coalesce算子
1、区别:coalesce可以指定是否发生shuffle;repartition不能指定,相当coalesce(numPartitions,true)2、应用:增加RDD的分区数就直接使用repartition算子,如果要减少RDD分区数,要使用coalesce(number,false)原创 2023-08-02 02:36:46 · 58 阅读 · 0 评论 -
SparkRDD算子--coalesce算子
缩减分区数,用于大数据集过滤后,提高小数据集的执行效率原创 2023-08-02 02:32:29 · 82 阅读 · 0 评论 -
spark中makerdd和parallelize的区别
makeRDD底层还是parallelize() 方法,不同点是makeRDD()方法还提供了最佳的计算位置原创 2023-08-02 02:27:36 · 332 阅读 · 0 评论 -
RDD,DataFrame,DataSet区别
因为一旦我们使用非类型安全的类型,软件的维护周期一长,如果集合中放入了一些不合适的类型,就会出现严重的故障。之前有人把Experience译为体验,但在小猴的技术世界里,Experience更多的是自己去经历,而不能跟团去旅游一样,那样你只能是一个外包而已,想要做到卓越,就得去经历。这个DAG我们看得不是特别清楚做了什么,因为Spark SQL是做过优化的,我们需要查看Query的详细信息,才能看到具体执行的工作。而类型安全就是JVM对象的集合,类型就是scala的样例类,或者是Java的实体类。原创 2023-07-12 16:50:26 · 67 阅读 · 0 评论 -
spark sql窗口大小设定:rowsBetween方法的使用
通过范围函数可以把计算(比如:sum,min,max,avg等操作)限定在一定的范围(基于当前行的向前或向后的条数)之内。原创 2023-07-31 09:52:38 · 411 阅读 · 0 评论