自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 Spark配置参数

Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息 日志配置:可以通过log4j.properties配置 bin/spark-submit也会从conf/spark-defaults.conf中读取配置选项,这个配置

2016-01-11 17:04:58 439

转载 Spark优化:禁止应用程序将依赖的Jar包传到HDFS

每次当你在Yarn上以Cluster模式提交Spark应用程序的时候,通过日志我们总可以看到下面的信息:1 21 Oct 2014 14:23:22,006INFO [main] (org.apache.spark.Loggingclass.logInfo:59)−2Uploadingfile:/home/spark−1.1.0−bin−2.2.0/lib/spark−assembly−1.1.

2016-01-11 16:52:37 2551

原创 Spark的部署模式

Spark的许多部署模式,究竟哪种模式好这个很难说,需要根据你的需求,如果你只是测试Spark Application,你可以选择local模式。而如果你数据量不是很多,Standalone 是个不错的选择。当你需要统一管理集群资源(Hadoop、Spark等)那么你可以选择Yarn,但是这样维护成本就会变高。  yarn-cluster和yarn-client模式内部实现还是有很大的区别。如果你

2016-01-11 16:50:07 493

转载 Hadoop与Spark常用配置参数总结

背景 MapReduce和Spark对外提供了上百个配置参数,用户可以为作业定制这些参数以更快,更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资

2016-01-11 16:47:00 546

原创 spark-submit笔记

driver-memory 5G MEM driver内存大小,默认512M executor-memory 5G MEM executor内存大小,默认1G executor-cores 5 NUM 每个executor使用的内核数,默认为1 num-executors 5 NUM 启动的executor数量,默认是2个关于Spark属性的优先权为:SparkConf方式 > 命令行参数方式

2016-01-11 16:44:14 412

原创 linux shell 笔记

cat /etc/passwd 所有系统用户账户列表及每个用户的基本信息 cat /etc/meminfo 虚拟内存的当前状况 ipcs -m 查看当前系统上共享内存页面[root@hadoop~]# 当前shell的用户名,当前虚拟控制台编号,当前目录ls -F 区分文件和目录 ls -a 隐藏文件 文件和目录都列出 ls -F -R ls -l 长列表格式的输出 文件类型

2016-01-11 16:40:35 285

原创 spark 未序列化

在执行spark脚本时报出spark未序列化异常, 解决办法: 在spark-defaults.conf文件中追加以下内容: spark.serializer=org.apache.spark.serializer.KryoSerializer spark.kryoserializer.buffer.max.mb=1024把spark-defaults.conf文件scp到集群中每个node

2016-01-11 16:35:40 578

原创 spark Exception

项目运行环境 CDH5.4.4flowbaselinetable.sh!/bin/bashsudo -u hdfs spark-submit –class com.xx.FlowBaseLine \ –master yarn-client \ –jars /home/wanghongbin/test/driver_jar/mysql-connector-java-5.1.33.jar \

2016-01-11 16:24:27 2432

转载 Linux基本命令

1. 启动终端要启动一个终端,可以选择 应用程序 → 附件 → 终端。快捷方式:Ctrl + Alt + T            2. 常用命令查看目录: lsls (List) 用不同颜色、经过排列的文本列出目录下的文件。创建目录: mkdir (目录名)mkdir (MaKeDIRectory) 命令可以创建目录。切换目录: cd (/di

2014-03-04 23:19:27 315

转载 hadoop笔记

hadoop 的集群是基于master/slave 模式namenode 和jobtracker 属于masterdatanode 和tasktracker 属于slavemaster 只有一个,而slave 有多个SecondaryNameNode 内存需求和NameNode 在一个数量级上,所以通常secondaryNameNode(运行在单独的物理机器上)和NameN

2014-02-12 21:24:56 288

原创 hadoop牛人

董西成   董的博客 http://dongxicheng.org/他写了两本关于hadoop的书正在看.王家林 http://www.cnblogs.com/guoshiandroid/http://www.cnblogs.com/xia520pi 文章简单易懂

2014-02-12 14:28:19 904

原创 hadoop初学习

最近在看hadoop相关的书籍,尝试着写下来我所理解的hadoop.什么是hadoop呢?一句话可以总结为 适合海量数据的分布式存储和计算平台.这句话从后往前说,"计算平台"就是mapreduce,"分布式存储"就是HDFS,"海量数据"到底是多少数据呢,听说是PB级别的,"适合"怎么来解释呢,也就是说如果数据是GB级别的,那就没必要使用hadoop了,单机来处理就可以了.

2014-02-12 14:20:36 534

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除