spark
文章平均质量分 55
innersense
这个作者很懒,什么都没留下…
展开
-
SPARK
1. Spark-shell 启动选择hive 还是in-memory?在使用spark-shell时,进一步使用dataframe进行sql处理,报错:HiveMetaStoreClient:Failed to connect to the MetaStore Serverspark-shell在默认启动的时候会选择Hive做为SqlContext的默认SessionCatalog,所谓catalog就是spark中对表资源进行管理的标准api集合。如果想使用in-memory的方式 ,可原创 2021-07-08 14:52:53 · 859 阅读 · 0 评论 -
SPARK YARN cCLUSTER模式及CLINET模式的启动过程
通过submit命令启动后${SPARK_HOME}/bin/spark-submit --master yarn-client --class com.bigdata.WordCount --executor-memory 2G \--num-executors 4 ${SPARK_HOME}/topn-1.0-SNAPSHOT.jar hdfs://spark-master:9000 /temp/inputdir /temp/outputdir实际上启动的是org.apache.spark原创 2020-08-08 17:47:50 · 255 阅读 · 0 评论 -
Spark Streaming启动过程及spark.streaming.kafka启动过程
1 StreamingContext中初始化JobScheduler2 JobScheduler里面初始化jobGenerator3 JobGenerator里面初始化RecurringTimer,4 RecurringTimer里面的run函数周期性的触发消息,从eventloop发送class JobGenerator(jobScheduler: JobSchedul...原创 2020-03-12 16:32:55 · 344 阅读 · 0 评论 -
SPARK 第三方库不可序列化问题Task not serializable Caused by: java.io.NotSerializableException
在RDD 中的map,filter等函数,都会被序列化后,再发送到各个节点去,所以需要map或者filter中的函数可以进行序列化,如果函数中依赖于第三方jar包生成的对象,但是第三方jar中类并不可以序列化,则可以用将第三方的对象进行包装,加上transient注解package bigdata.zetaskechimport java.io.{ObjectInputStre...原创 2020-03-06 11:53:10 · 2438 阅读 · 3 评论 -
Spark 在windows环境中源码编译遇到的错误
1 首先有可能是各种jar包错误,删除掉maven里面的jar包就好,2 其他:Error:(21, 8) Symbol 'term org.apache.spark.annotation' is missing from the classpath.This symbol is required by ' <none>'.Make sure that term annot...原创 2018-08-29 16:19:37 · 9012 阅读 · 0 评论