![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 69
cclovezbf
这个作者很懒,什么都没留下…
展开
-
spark程序运行完了但是一直卡住。
spark 任务也跑完了,卡在最后,一直没结束。因为我之前开了一个线程池,用完了没关闭。原创 2022-11-17 16:45:33 · 1526 阅读 · 1 评论 -
spark代码之使用各种函数
1.通过functions.xxx去调用函数 涉及到 group sum distinct order by desc ,,row_number()over(partition by )如果我们想saveastable 也建议select(id,name,score) ,不影响使用,只是字段位置按照英文字母顺序排列建的。saveAstable是保存为表,每次会覆盖之前的表结构(有一定概率出错,出错了 hive删除表再跑就行)如果要insertinto 必须要select(id,name,score)原创 2022-11-11 17:42:05 · 368 阅读 · 0 评论 -
spark插入动态分区代码报错
config("hive.metastore.dml.events","false") 就好了。windows确实好了。.config("hive.exec.dynamic.partition.mode", "nonstrict")//动态分区。.config("hive.metastore.dml.events","false")//动态分区。但是我在服务器跑代码反复测试 都是可以重复插入分区的。window实在是难搞。dataset第一次插入分区没有问题,但是第二次重新跑的时候。原创 2022-11-07 18:19:39 · 2316 阅读 · 0 评论 -
spark报错:Cannot overwrite a path that is also being read from.
第一个解决办法真不行。我查了下这两个参数大多是解决spark读取hive表数据量不对的情况用的。而且我设置之后还有报错就不贴出来了。为啥不用append 因为有时候会重复调用。反正就是这么个情况。大概就是获取表里的原始数据,然后从别的地方搞来的新数据两个合起来继续存到表里去。找个时间好好学习下spark的checkpoint知识。第三个这种lowb方法就不说了。这个错看起来很简单。原创 2022-11-04 14:18:09 · 6010 阅读 · 1 评论 -
spark-submit源码解析
简化为 /data/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/spark/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@"exec $LIB_DIR/spark/bin/spark-submit "$@" --再次把参数传递给另外一个spark-submit。${CLOUERA_HOME}/spark/jars/*: --这里就有我们上面提到的proto jar。原创 2022-10-31 17:39:20 · 519 阅读 · 0 评论 -
cannot access scala cloneable
写spark代码的时候引入了spark的jar,但是sparkConf.setAppName报红,右键module,add scala Framework。原创 2022-10-24 11:11:31 · 551 阅读 · 0 评论 -
spark sql之巧用group by
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。1.5*1000*1000*1000kb=1.5*1000*1000mb=1.5*1000G=1.5T 当然我这个计算是不准确的。我这里都是自己想的。这个就是我最开始提出的疑问 有的key是合并了。所以我们提前预知任务的个数,然后采用合适的资源,再根据资源的选择去确定任务个数,这样才是最正确的做法。原创 2022-10-21 10:17:10 · 2751 阅读 · 0 评论 -
深入理解spark web ui
背景 某个表 1亿2千万数据select substring(display_cluster_id,0,1) ,count(1)from odsiadata.ia_fdw_model_result_for_batch_registration_detect_all --where display_cluster_id='3_000000337'group by substring(display_cluster_id,0,1)这个substring 可以忽略 简单理解为有个group b...原创 2022-05-31 15:50:35 · 2090 阅读 · 0 评论 -
spark sql之hint 学习
官网永远是学习的最好地方。Hints - Spark 3.2.0 Documentationhttps://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-hints.html public static void main(String[] args) throws KuduException, InterruptedException { SparkConf sparkConf = new SparkConf(原创 2022-01-26 10:11:36 · 4560 阅读 · 2 评论 -
windows环境下Invalid Spark URL: spark://HeartbeatReceiver@xxxx报错解决。
第一种方法Invalid Spark URL: spark://HeartbeatReceiver@xxxx报错解决_wzk_cool的博客-CSDN博客服务器修改主机名:1. hostname新主机名(重启后失效)2.vi /ect/sysconfig/network(重启后永久生效)windows这个都是很常规的,今天说第二种。我就是要在本地调试,而且我的机器就是要入域,同时入域了这个机器名还就是不能改!!!那怎么搞???拒绝抄袭,追寻真理 从我做起。...原创 2021-10-15 16:53:42 · 1711 阅读 · 2 评论 -
spark疑难杂症
背景:上周spark任务还能正常运行。突然执行就开始报错?写了一个spark的功能读取csv然后导入到hive功能,先看报错FileNotFoundException :这个报错可太简单了吧,不是就是文件文件找不到,啥文件找不到我就复制啥文件不好了么?是哪个文件?怎么好像打印乱码了呢? 先不管。。。。在接着看TGT Renewer for hive@CDH.COM] security.UserGroupInformation (UserGroupInformation.java:run(10原创 2021-08-24 18:37:30 · 1937 阅读 · 0 评论 -
spark-写入到hbase
pom <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>${spark.version}</version> <exclusions>原创 2021-04-26 15:34:16 · 357 阅读 · 0 评论 -
windows编译hadoop源码2.4.0
1、去github上下载源码2、打开工程根目录pom.xml文件发现<spark.test.home>${session.executionRootDirectory}</spark.test.home>爆红。。。忽略<maven.version>3.6.3</maven.version>修改为自己的maven版本<scala.version></scala.version>修改为自己版本我的是2.11.12不用改3原创 2020-12-24 14:20:57 · 181 阅读 · 0 评论 -
spark中dataframe,dataset,sparksql中的各种用法
package org.apache.spark.examplesimport DsFilter.Studentimport org.apache.spark.{HashPartitioner, Partitioner}import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport o...原创 2020-05-29 09:04:02 · 446 阅读 · 0 评论 -
spark中SparkContext源码解析
val conf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[*]") val sc = new SparkContext(conf)短短两句代码背后,到底做了多少事情?SparkContext _env = createSparkEnv(_conf, isLocal, listenerBus) SparkEnv.set(_env)SparkEnv最后的creat...原创 2020-05-28 09:29:05 · 239 阅读 · 0 评论 -
scala中的private 和 private[]
winutils下载 https://github.com/cdarlint/winutils配置好环境变量或者System.setProperty("hadoop.home.dir", "F:\\office\\hadoop-2.7.1\\bin\\winutils.exe")原创 2020-05-27 15:18:23 · 3308 阅读 · 0 评论 -
structured-Streaming之watermark水印update和append模式学习
http://spark.apache.org/docs/2.4.3/structured-streaming-programming-guide.html建议看官网,官网最权威注意点1、该outputMode为update模式,即只会输出那些有更新的数据!!2、该开窗窗口长度为10min,步长5min,水印为eventtime-10min,(需理解开窗规则)3...原创 2019-09-26 14:55:04 · 1625 阅读 · 0 评论