- 博客(12)
- 收藏
- 关注
转载 Spark配置参数
Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息 日志配置:可以通过log4j.properties配置 bin/spark-submit也会从conf/spark-defaults.conf中读取配置选项,这个配置
2016-01-11 17:04:58 439
转载 Spark优化:禁止应用程序将依赖的Jar包传到HDFS
每次当你在Yarn上以Cluster模式提交Spark应用程序的时候,通过日志我们总可以看到下面的信息:1 21 Oct 2014 14:23:22,006INFO [main] (org.apache.spark.Loggingclass.logInfo:59)−2Uploadingfile:/home/spark−1.1.0−bin−2.2.0/lib/spark−assembly−1.1.
2016-01-11 16:52:37 2551
原创 Spark的部署模式
Spark的许多部署模式,究竟哪种模式好这个很难说,需要根据你的需求,如果你只是测试Spark Application,你可以选择local模式。而如果你数据量不是很多,Standalone 是个不错的选择。当你需要统一管理集群资源(Hadoop、Spark等)那么你可以选择Yarn,但是这样维护成本就会变高。 yarn-cluster和yarn-client模式内部实现还是有很大的区别。如果你
2016-01-11 16:50:07 493
转载 Hadoop与Spark常用配置参数总结
背景 MapReduce和Spark对外提供了上百个配置参数,用户可以为作业定制这些参数以更快,更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资
2016-01-11 16:47:00 546
原创 spark-submit笔记
driver-memory 5G MEM driver内存大小,默认512M executor-memory 5G MEM executor内存大小,默认1G executor-cores 5 NUM 每个executor使用的内核数,默认为1 num-executors 5 NUM 启动的executor数量,默认是2个关于Spark属性的优先权为:SparkConf方式 > 命令行参数方式
2016-01-11 16:44:14 412
原创 linux shell 笔记
cat /etc/passwd 所有系统用户账户列表及每个用户的基本信息 cat /etc/meminfo 虚拟内存的当前状况 ipcs -m 查看当前系统上共享内存页面[root@hadoop~]# 当前shell的用户名,当前虚拟控制台编号,当前目录ls -F 区分文件和目录 ls -a 隐藏文件 文件和目录都列出 ls -F -R ls -l 长列表格式的输出 文件类型
2016-01-11 16:40:35 285
原创 spark 未序列化
在执行spark脚本时报出spark未序列化异常, 解决办法: 在spark-defaults.conf文件中追加以下内容: spark.serializer=org.apache.spark.serializer.KryoSerializer spark.kryoserializer.buffer.max.mb=1024把spark-defaults.conf文件scp到集群中每个node
2016-01-11 16:35:40 578
原创 spark Exception
项目运行环境 CDH5.4.4flowbaselinetable.sh!/bin/bashsudo -u hdfs spark-submit –class com.xx.FlowBaseLine \ –master yarn-client \ –jars /home/wanghongbin/test/driver_jar/mysql-connector-java-5.1.33.jar \
2016-01-11 16:24:27 2432
转载 Linux基本命令
1. 启动终端要启动一个终端,可以选择 应用程序 → 附件 → 终端。快捷方式:Ctrl + Alt + T 2. 常用命令查看目录: lsls (List) 用不同颜色、经过排列的文本列出目录下的文件。创建目录: mkdir (目录名)mkdir (MaKeDIRectory) 命令可以创建目录。切换目录: cd (/di
2014-03-04 23:19:27 315
转载 hadoop笔记
hadoop 的集群是基于master/slave 模式namenode 和jobtracker 属于masterdatanode 和tasktracker 属于slavemaster 只有一个,而slave 有多个SecondaryNameNode 内存需求和NameNode 在一个数量级上,所以通常secondaryNameNode(运行在单独的物理机器上)和NameN
2014-02-12 21:24:56 288
原创 hadoop牛人
董西成 董的博客 http://dongxicheng.org/他写了两本关于hadoop的书正在看.王家林 http://www.cnblogs.com/guoshiandroid/http://www.cnblogs.com/xia520pi 文章简单易懂
2014-02-12 14:28:19 904
原创 hadoop初学习
最近在看hadoop相关的书籍,尝试着写下来我所理解的hadoop.什么是hadoop呢?一句话可以总结为 适合海量数据的分布式存储和计算平台.这句话从后往前说,"计算平台"就是mapreduce,"分布式存储"就是HDFS,"海量数据"到底是多少数据呢,听说是PB级别的,"适合"怎么来解释呢,也就是说如果数据是GB级别的,那就没必要使用hadoop了,单机来处理就可以了.
2014-02-12 14:20:36 534
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人