spark
文章平均质量分 82
liujianhuiouc
这个作者很懒,什么都没留下…
展开
-
spark本地java开发环境的搭建
基于Java开发Spark HelloWorld绪论 对于学习任何一门新的开发语言或者新的技术,常常都是从HelloWorld开发写起,文章主要介绍在本地环境下如何构建Spark的开发环境,进而开发一个HelloWorld程序,提交运行HelloWorld。环境的搭建 首先在本地创建一个maven工程(本地未安装maven的请先安装),生成一个mav原创 2015-12-11 15:18:06 · 2599 阅读 · 0 评论 -
spark streaming流量控制
随着计算机机硬件的快速发展,机器的内存大小也从原来的以兆为单位到现在的上百G,这也推动了分布式计算从原来的基于硬盘存储发展到现在的基于内存存储,spark作为实时计算的佼佼者也逐渐的走上了大规模商业应用的道路,spark streaming常常用在实时流计算的各个领域,在这一章节我们主要讲解一下streaming处理过程中的流量控制,在我们平时的streaming程序开发过程中应该注意哪些方面以提高原创 2016-08-26 21:21:35 · 1885 阅读 · 0 评论 -
Spark集群容错场景介绍
容错指的是一个系统在部分模块出现故障时还能否持续的对外提供服务,一个高可用的系统应该具有很高的容错性;对于一个大的集群系统来说,机器故障、网络异常等都是很常见的,spark这样的大型分布式计算集群提供了很多的容错机制来提高整个系统的可用性,在接下来的部分中我们会讨论spark如应对各种模块异常 master异常退出 worker异常退出 executor原创 2016-08-26 16:53:25 · 2684 阅读 · 0 评论 -
Spark Streaming源码简介
Spark Streaming简介 spark streaming是构建在spark core之上,提供的可扩展、高吞吐、容错的实时流处理模块,它能接受来自kafka、flume、tcp各种渠道的数据,进行用户定义的各种Map、Reduce计算,最终将数据继承到文件系统、HDFS、Hbase这样的存储平台或者将参数的数据供后端系统消费;今天我们着重介绍下Streaming模块中的类依赖关系以及自原创 2016-08-29 22:07:11 · 569 阅读 · 0 评论 -
stream的job的产生
Stream中Job的生成 大家可以通过参考spark的官网快速的开发一个属于自己的spark stream程序,然后提交job到指定的spark集群完成流任务的运行;或者直接通过local模式在本地环境中运行,但却很少有人能够清楚的叙述其运行的原理,本文将着重介绍streaming的程序是如何生成job的,对于job的调度、stage的拆分、task的运行将会在后续的章节中一一为大家介绍。原创 2016-09-06 19:38:12 · 580 阅读 · 0 评论 -
TasksetManager冲突导致SparkContext异常关闭
背景介绍当正在悠闲敲着代码的时候,业务方兄弟反馈接收到大量线上运行的spark streaming任务的告警短信,查看应用的web页面信息,发现spark应用已经退出了,第一时间拉起线上的应用,再慢慢的定位故障原因。本文代码基于spark 1.6.1。问题定位登陆到线上机器,查看错误日志,发现系统一直报Cannot call methods on a stopped Spark原创 2017-03-16 10:24:24 · 2496 阅读 · 0 评论