Spark
KevinZwx
这个作者很懒,什么都没留下…
展开
-
Spark错误:WARN TaskSchedulerImpl: Initial job has not accepted any resources;
在windows环境下使用Intellij idea远程执行spark程序时,遇到了以下问题: Intellij控制台输出警告:WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and hav原创 2015-05-13 16:59:10 · 3716 阅读 · 0 评论 -
使用Intellij IDEA开发并提交Spark应用到远程Spark集群
使用Intellij IDEA开发Spark应用,并提交到远程Spark集群执行通常我们写了一个spark程序,总是需要将程序打成jar包然后提交到集群执行,这样很麻烦,因此本文想说明通过像在eclipse中远程开发和执行Hadoop Job一样,使用Intellij IDEA开发Spark应用,并能够直接在IDE中提交作业到远程集群去执行,在console中看到输出结果或者各种错误原因。环境与工具原创 2015-05-06 09:01:54 · 18444 阅读 · 5 评论 -
Spark 共享变量——累加器(accumulator)与广播变量(broadcast variable)
我们传递给Spark的函数,如map(),或者filter()的判断条件函数,能够利用定义在函数之外的变量,但是集群中的每一个task都会得到变量的一个副本,并且task在对变量进行的更新不会被返回给driver。而Spark的两种共享变量:累加器(accumulator)和广播变量(broadcast variable),在广播和结果聚合这两种常见类型的通信模式上放宽了这种限制。原创 2015-11-05 11:55:29 · 6961 阅读 · 0 评论 -
Spark配置参数
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志转载 2016-01-26 13:45:19 · 3664 阅读 · 0 评论 -
解决“org.apache.hadoop.security.AccessControlException”
在运行某个Spark Application的时候,需要向Hdfs写入文件,控制台会输出以下错误信息:Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=Administrator, access=WRI原创 2015-12-09 09:55:33 · 24557 阅读 · 11 评论 -
Spark性能优化——序列化、内存、并行度、数据存储格式、Shuffle
序列化背景:在以下过程中,需要对数据进行序列化:shuffling data时需要通过网络传输数据RDD序列化到磁盘时性能优化点:Spark默认的序列化类型是Java序列化。Java序列化的优势是兼容性好,不需要自已注册类。劣势是性能差。为提升性能,建议使用Kryo序列化替代默认的Java序列化。Kryo序列化的优势是速度快,体积小,劣势是兼容性差,需要自已注册类。转载 2016-01-15 15:42:54 · 1939 阅读 · 0 评论 -
使用REST API提交、查看和结束Spark应用
使用REST API提交、查看和结束Spark应用原创 2017-05-02 22:51:18 · 13318 阅读 · 0 评论