spark
文章平均质量分 52
KingBoxing
平凡普通
展开
-
查看yarn的container的资源占用情况
yarn上运行程序是由container来执行的,那么当我们想要知道每台节点对应的container的使用情况时,需要从何入手呢?开始我以为yarn的系统命令会有相应的提示,于是yarn --help,没有我想要的信息。那么从另一方面入手吧:Linux系统。1. 首先top观察一下哪个线程比较像我们要找的那个线程,锁定线程ID2. cd /proc/3. ls --里面全都是正原创 2015-01-27 11:46:08 · 13505 阅读 · 0 评论 -
spark on yarn日志切割
由于spark on yarn的日志会在stderr里面一直追加,而且streaming又是长应用,那么stderr会一直增长。解决办法就是把stderr按天切割,这样我们就可以删除之前的日志了。1. 首先,把集群中的hadoop的log4j文件/etc/hadoop/conf/log4j.properties添加如下两行:log4j.additivity.com.kingsoft = f原创 2015-03-26 12:01:17 · 2009 阅读 · 0 评论 -
spark-streaming对系统时间的要求
Linux的系统时间可以很容易的被修改:date -s *******那么就需要保证所有机器的时间一致性。我们的线上机器是所有机器与一台校准器保持一致:/usr/sbin/ntpdate 10.0.1.128那么应用服务器的机器都是校准过的,但是我们的hadoop集群时间比较参差不齐,原因是因为CDH管理集群时需要把集群的ntpd服务全部打开,CDH自己内部有时间校准规则,但是nt原创 2015-01-26 12:08:26 · 1287 阅读 · 0 评论 -
SparkFlumeEvent:spark streaming连接flume,从SparkFlumeEvent中获取记录内容
JavaReceiverInputDStream flumeStream = FlumeUtils.createStream(jssc, args[0], Integer.parseInt(args[1])); JavaDStream words = flumeStream .flatMap(new FlatMapFunction() { @Override原创 2015-01-24 17:50:12 · 3708 阅读 · 1 评论 -
spark-streaming:Could not compute split, block not found
14/10/07 18:10:27 WARN scheduler.TaskSetManager: Lost task 45.0 in stage 12.0 (TID 129, domU-12-31-39-04-60-07.compute-1.internal): java.lang.Exception: Could not compute split, block input-0-141270原创 2015-01-26 11:54:17 · 8027 阅读 · 2 评论 -
spark-streaming程序打包配置文件
在spark-streaming程序中需要配置文件中的数据来完成某项统计时,需要把配置文件打到工程里,maven的配置如下: org.apache.maven.plugins maven-surefire-plugin true src/main/resources **/*.t原创 2015-01-24 20:50:12 · 3345 阅读 · 0 评论 -
spark streaming NotSerializableException
在使用spark streaming时,会出现无法序列化异常,代码如下: SparkConf conf = new SparkConf().setAppName("NetworkWordCount"); JavaStreamingContext jssc = new JavaStreamingContext(conf, new Duration(5000)); JavaReceive原创 2015-01-24 17:06:32 · 2526 阅读 · 0 评论 -
spark-streaming连接flume时报错org.jboss.netty.channel.ChannelException: Failed to bind to: /IP:PORT
http://bbs.csdn.net/topics/390971594?page=1#post-398808154上面是我当时提问用的,折磨了我好几天,后来发现问题了,分析如下:连接flume是通过JavaReceiverInputDStream flumeStream = FlumeUtils.createStream(jssc, args[0], Integer.parseInt原创 2015-01-19 17:36:58 · 20499 阅读 · 10 评论 -
大数据计算平台Spark内核全面解读
1、Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着 Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。S转载 2015-02-03 11:57:03 · 1181 阅读 · 0 评论 -
Spark Streaming实例分析
转载地址:http://www.aboutyun.com/thread-8901-1-1.html这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming编程讲解 》。Example代码分析val ssc = new StreamingContext(sparkConf, Seconds(1));转载 2015-02-02 21:00:03 · 5978 阅读 · 0 评论 -
spark问题记录
问题导读1、当前集群的可用资源不能满足应用程序的需求,怎么解决?2、内存里堆的东西太多了,有什么好办法吗?1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito ensure that workers are registered转载 2015-02-01 12:50:54 · 754 阅读 · 0 评论 -
spark内核简介
1、Spark介绍Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。Spark利用1转载 2015-03-18 15:27:34 · 748 阅读 · 0 评论