spark
join_null
这个作者很懒,什么都没留下…
展开
-
Spark on yarn时,yarn-client、yarn-cluster、client、cluster用法
1.yarn-client、cluster用法:spark-submit \--master yarn-cluster \上面的写法等价于spark-submit \--master yarn \--deploy-mode cluster \2.yarn-client、client用法spark-submit \--master yarn-client \等价于spark-submit \--master yarn \--deploy-mode client.原创 2021-08-09 17:55:15 · 128 阅读 · 0 评论 -
解决spark on yarn模式时,在yarn的web界面上点击ApplicationMaster无法看到SparkWebUi界面
1.需要在hadoop集群的所有节点yarn-site.xml中加入如下配置 <property> <name>yarn.web-proxy.address</name> <value>master01:8089</value> </property>在指定的master01节点启动web-proxy服务:./sbin/yarn-daemon.sh start proxyserver2.重启所有节点.原创 2020-11-23 19:09:35 · 2714 阅读 · 1 评论 -
hadoop2和spark on yarn搭建
https://my.oschina.net/u/3754001/blog/1811243原创 2019-10-09 17:28:47 · 106 阅读 · 0 评论 -
Spark 任务名在使用yarn-cluster模式提交时不生效
【问题描述】Spark应用名在使用yarn-cluster模式提交时不生效,在使用yarn-client模式提交时生效,第一个应用是使用yarn-client模式提交的,正确显示我们代码里设置的应用名Spark Pi,第二个应用是使用yarn-cluster模式提交的,设置的应用名没有生效。 【原因/解决方式】导致这个问题的主要原因是,yarn-client和yarn-cluste...转载 2018-09-04 11:53:05 · 2057 阅读 · 1 评论 -
Spark Streaming之updateStateByKey和mapWithState比较
https://blog.csdn.net/zhanglh046/article/details/78505124转载 2018-08-17 11:19:50 · 704 阅读 · 0 评论 -
sparkstreaming kafka Failed to get records for after polling for 512
new SparkConf().setAppName("XX").setMaster("local") .set("spark.streaming.kafka.consumer.poll.ms", "30000");https://blog.csdn.net/lmb09122508/article/details/80522252转载 2018-08-14 08:45:10 · 1026 阅读 · 0 评论 -
spark2.3与kafka0.10整合
https://blog.csdn.net/qq_24084925/article/details/80842534参数含义https://blog.csdn.net/zhongguozhichuang/article/details/53282858 注意:当spark集群环境版本是2.3时,spark-streaming-kafka的版本必须是2.3.0,否则启动时报错java...转载 2018-08-09 15:39:08 · 1820 阅读 · 0 评论 -
spark的java项目的pom文件
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4....原创 2018-08-09 09:42:35 · 2375 阅读 · 1 评论 -
Spark通过bulkLoad对HBase快速导入
https://segmentfault.com/a/1190000009762041注意文章中提到的"重点“一部分的内容,关于写入的数据要有序,也就是说不是所有保存数据到hbase的场景都适合用这种bulload的方式转载 2017-08-31 09:49:01 · 1338 阅读 · 0 评论 -
spark多文件输出
1.因为spark是用hadoop的api进行输出的,MultipleOutputFormat是hadoop用于支持多文件输出的,所以自定义一个MultipleOutputFormat类import java.io.IOException;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.mapred.JobC原创 2017-05-03 10:18:39 · 1967 阅读 · 0 评论