spark
chinabinner
这个作者很懒,什么都没留下…
展开
-
spark 未序列化
在执行spark脚本时报出spark未序列化异常, 解决办法: 在spark-defaults.conf文件中追加以下内容: spark.serializer=org.apache.spark.serializer.KryoSerializer spark.kryoserializer.buffer.max.mb=1024把spark-defaults.conf文件scp到集群中每个node原创 2016-01-11 16:35:40 · 602 阅读 · 0 评论 -
spark Exception
项目运行环境 CDH5.4.4flowbaselinetable.sh!/bin/bashsudo -u hdfs spark-submit –class com.xx.FlowBaseLine \ –master yarn-client \ –jars /home/wanghongbin/test/driver_jar/mysql-connector-java-5.1.33.jar \原创 2016-01-11 16:24:27 · 2470 阅读 · 0 评论 -
spark-submit笔记
driver-memory 5G MEM driver内存大小,默认512M executor-memory 5G MEM executor内存大小,默认1G executor-cores 5 NUM 每个executor使用的内核数,默认为1 num-executors 5 NUM 启动的executor数量,默认是2个关于Spark属性的优先权为:SparkConf方式 > 命令行参数方式原创 2016-01-11 16:44:14 · 429 阅读 · 0 评论 -
Hadoop与Spark常用配置参数总结
背景 MapReduce和Spark对外提供了上百个配置参数,用户可以为作业定制这些参数以更快,更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资转载 2016-01-11 16:47:00 · 567 阅读 · 0 评论 -
Spark的部署模式
Spark的许多部署模式,究竟哪种模式好这个很难说,需要根据你的需求,如果你只是测试Spark Application,你可以选择local模式。而如果你数据量不是很多,Standalone 是个不错的选择。当你需要统一管理集群资源(Hadoop、Spark等)那么你可以选择Yarn,但是这样维护成本就会变高。 yarn-cluster和yarn-client模式内部实现还是有很大的区别。如果你原创 2016-01-11 16:50:07 · 515 阅读 · 0 评论 -
Spark优化:禁止应用程序将依赖的Jar包传到HDFS
每次当你在Yarn上以Cluster模式提交Spark应用程序的时候,通过日志我们总可以看到下面的信息:1 21 Oct 2014 14:23:22,006INFO [main] (org.apache.spark.Loggingclass.logInfo:59)−2Uploadingfile:/home/spark−1.1.0−bin−2.2.0/lib/spark−assembly−1.1.转载 2016-01-11 16:52:37 · 2575 阅读 · 0 评论 -
Spark配置参数
Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息 日志配置:可以通过log4j.properties配置 bin/spark-submit也会从conf/spark-defaults.conf中读取配置选项,这个配置转载 2016-01-11 17:04:58 · 457 阅读 · 0 评论