spark
记录spark学习
sxzshushu
Never-ending success
learning is never-ending
展开
-
IDEA关联Scala源代码并查看Scala方法源码
1、关联Scala源码在IDEA中查看Scala源码首先需要关联一下1、先下载Scala源代码下载链接https://www.scala-lang.org/download/all.html选择所需要的版本,(版本的选择是根据你的Scala插件版本决定的),点进去找到源代码下载项。我的idea中scala是2.11.8下载后并解压2、在intellij idea设置指向源代码在intellij中打开File –> Project Structure,快捷键(Ctrl + Alt转载 2021-12-02 14:32:54 · 2351 阅读 · 0 评论 -
记录Spark 笛卡尔积问题
因为要上线一个需求,有改到spark sql。 在改之前我一般习惯把生产原逻辑跑一边理解下(需求赶,都是边读业务边写)但奇怪的是,在生产上已经跑了24个账期的代码,拉到自己环境跑却报了 两者的版本都是2.XDetected cartesian product for INNER join between logical plans的错误。这个错误很明显,笛卡尔积。国内所有的解决方案都是抄袭的设置 配置spark.conf.set("spark.sql.crossJoin.enable..转载 2021-03-12 17:02:14 · 976 阅读 · 0 评论 -
Spark如何处理数据倾斜
什么是数据倾斜数据倾斜是指我们在并行进行数据处理的时候,由于数据Spark的单个Partition)的分布不均,导致大量的数据集中分不到一台或者某几台计算节点上,导致处理速度远低于平均计算速度,从而拖延导致整个计算过程过慢,影响整个计算性能数据倾斜的危害单个或者某几个task拖延整个任务运行时间,导致整体耗时过大 单个task处理数据过多,很容易导致oom Executor Kill lost,Shuffle error数据倾斜的产生数据倾斜容易产生在两个过程,本身数据源读的倾斜,..转载 2020-10-09 17:22:50 · 504 阅读 · 0 评论 -
Spark SQL中外连接查询中的谓词下推规则
SparkSqlSparkSql是架构在spark计算框架之上的分布式Sql引擎,使用DataFrame和DataSet承载结构化和半结构化数据来实现数据复杂查询处理,提供的DSL可以直接使用scala语言完成sql查询,同时也使用thrift server提供服务化的Sql查询功能。SparkSql提供了Data Source API,用户通过这套API可以自己开发一套Connector,直接查询各类数据源,包括NoSql、RDBMS、搜索引擎以及HDFS等分布式FS上的文件等。和SparkSql类似转载 2020-07-14 19:31:21 · 304 阅读 · 0 评论 -
SparkStreaming 整合kafka Demo
SparkStreaming 整合kafka Demo这里使用的是低级API,因为高级API非常不好用,需要繁琐的配置,也不够自动化,却和低级API的效果一样,所以这里以低级API做演示你得有zookeeper和kafka我这里是3台节点主机架构图与高级API的区别,简单并行(不需要创造多个输入流,它会自动并行读取kafka的数据),高效(不会像receiver数据被copy两次),一次性语义(缺点:无法使用zookeeper的监控工具)1.创建maven工程首先..转载 2020-07-13 20:46:05 · 301 阅读 · 0 评论