chinabinner-CSDN博客

转载 Spark配置参数

Spark提供三个位置用来配置系统：Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置：可以通过log4j.properties配置 bin/spark-submit也会从conf/spark-defaults.conf中读取配置选项，这个配置

2016-01-11 17:04:58 439

转载 Spark优化：禁止应用程序将依赖的Jar包传到HDFS

每次当你在Yarn上以Cluster模式提交Spark应用程序的时候，通过日志我们总可以看到下面的信息：1 21 Oct 2014 14:23:22,006INFO [main] (org.apache.spark.Loggingclass.logInfo:59)−2Uploadingfile:/home/spark−1.1.0−bin−2.2.0/lib/spark−assembly−1.1.

2016-01-11 16:52:37 2551

Spark的许多部署模式，究竟哪种模式好这个很难说，需要根据你的需求，如果你只是测试Spark Application，你可以选择local模式。而如果你数据量不是很多，Standalone 是个不错的选择。当你需要统一管理集群资源（Hadoop、Spark等）那么你可以选择Yarn，但是这样维护成本就会变高。　　yarn-cluster和yarn-client模式内部实现还是有很大的区别。如果你

2016-01-11 16:50:07 493

转载 Hadoop与Spark常用配置参数总结

背景 MapReduce和Spark对外提供了上百个配置参数，用户可以为作业定制这些参数以更快，更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限（单位:MB），默认为1024。如果Map Task实际使用的资

2016-01-11 16:47:00 546

原创 spark-submit笔记

driver-memory 5G MEM driver内存大小，默认512M executor-memory 5G MEM executor内存大小，默认1G executor-cores 5 NUM 每个executor使用的内核数，默认为1 num-executors 5 NUM 启动的executor数量，默认是2个关于Spark属性的优先权为：SparkConf方式 > 命令行参数方式

2016-01-11 16:44:14 412

原创 linux shell 笔记

cat /etc/passwd 所有系统用户账户列表及每个用户的基本信息 cat /etc/meminfo 虚拟内存的当前状况 ipcs -m 查看当前系统上共享内存页面[root@hadoop~]# 当前shell的用户名,当前虚拟控制台编号,当前目录ls -F 区分文件和目录 ls -a 隐藏文件文件和目录都列出 ls -F -R ls -l 长列表格式的输出文件类型

2016-01-11 16:40:35 285

原创 spark 未序列化

在执行spark脚本时报出spark未序列化异常, 解决办法: 在spark-defaults.conf文件中追加以下内容: spark.serializer=org.apache.spark.serializer.KryoSerializer spark.kryoserializer.buffer.max.mb=1024把spark-defaults.conf文件scp到集群中每个node

2016-01-11 16:35:40 578

原创 spark Exception

项目运行环境 CDH5.4.4flowbaselinetable.sh!/bin/bashsudo -u hdfs spark-submit –class com.xx.FlowBaseLine \ –master yarn-client \ –jars /home/wanghongbin/test/driver_jar/mysql-connector-java-5.1.33.jar \

2016-01-11 16:24:27 2432

转载 Linux基本命令

1. 启动终端要启动一个终端，可以选择应用程序 → 附件 → 终端。快捷方式：Ctrl + Alt + T 2. 常用命令查看目录： lsls (List) 用不同颜色、经过排列的文本列出目录下的文件。创建目录： mkdir (目录名)mkdir (MaKeDIRectory) 命令可以创建目录。切换目录： cd (/di

2014-03-04 23:19:27 315

转载 hadoop笔记

hadoop 的集群是基于master/slave 模式namenode 和jobtracker 属于masterdatanode 和tasktracker 属于slavemaster 只有一个，而slave 有多个SecondaryNameNode 内存需求和NameNode 在一个数量级上，所以通常secondaryNameNode（运行在单独的物理机器上）和NameN

2014-02-12 21:24:56 288

原创 hadoop牛人

董西成董的博客 http://dongxicheng.org/他写了两本关于hadoop的书正在看.王家林 http://www.cnblogs.com/guoshiandroid/http://www.cnblogs.com/xia520pi 文章简单易懂

2014-02-12 14:28:19 904

原创 hadoop初学习

最近在看hadoop相关的书籍,尝试着写下来我所理解的hadoop.什么是hadoop呢?一句话可以总结为适合海量数据的分布式存储和计算平台.这句话从后往前说,"计算平台"就是mapreduce,"分布式存储"就是HDFS,"海量数据"到底是多少数据呢,听说是PB级别的,"适合"怎么来解释呢,也就是说如果数据是GB级别的,那就没必要使用hadoop了,单机来处理就可以了.

2014-02-12 14:20:36 534

chinabinner的专栏