spark
文章平均质量分 59
han3ying1jun8
这个作者很懒,什么都没留下…
展开
-
elasticsearch与spark,hbase等jar包冲突导致报错问题
在原有的spark程序中,其中包含hhase,spark等,会出现jar包冲突导致有异常的问题,程序中都是使用maven。在异常中,包含nosuchmethod的异常错误信息,可以看出是guava版本与hadoop版本不一致导致,Hadoop中使用的是12版本,而es2.3.1默认使用18版本。这样才程序执行的时候使用的是12版本,会导致类中的方法找不到的异常。解决办法是,es的依赖不使用...2016-07-19 21:52:01 · 457 阅读 · 0 评论 -
修改并编译spark源码
这里说一下spark源码的编译,可以修改一些源码,进行编译,这里我们修改一下spark-shell启动时输出消息的代码,这地方不用多说,使用 idea导入spark官网 下载的spark1.6源码,然后修改,回到spark源码解压目录,这里首先配置maven,jdk等环境变量。[code="java"]./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version...2017-08-09 10:11:36 · 718 阅读 · 0 评论 -
scala调用api操作elasticsearch时long类型问题解决
在scala写spark程序的时候,为了方便控制,会调用java的api进行操作elasticsearch,这时候,需要一个map,接收具体的字段,这地方有会一个问题,就是接受的这个map必须是AnyRef类型的,比如我们需要存入一个long类型的值,比如时间是个long,那么直接写入就会有问题,因为scala里面AnyRef不包含数值类型,而是属于AnyVal类型。遇到这种情况,我们使用下面的方...2017-07-27 17:34:28 · 846 阅读 · 0 评论 -
spark源码分析之SparkContext初始化一
基于standalone模式这里,我们主要关注最主要的2个地方的初始化,首先是TaskScheduler的创建初始化。[code="java"]// Create and start the scheduler val (sched, ts) = SparkContext.createTaskScheduler(this, master) _schedulerBacke...2017-07-04 18:18:35 · 143 阅读 · 0 评论 -
Akka的生命周期
首先定义一个类,继承Actor[code="java"]class akka001 extends Actor{ override def preStart() ={ println("this is preStart()") } def receive = LoggingReceive{ case "hello" => println("hello wo...2017-07-04 09:52:33 · 234 阅读 · 0 评论 -
spark实现hadoop中获取文件名的功能
hadoop1版本中提供了获取文件名的功能,就是在map阶段可以获取每一行记录属于哪个文件,可以得到这个文件名,代码如下:[code="java"]//获取文件名InputSplit inputSplit=(InputSplit)context.getInputSplit();String filename=((FileSplit)inputSplit).getPath().getName...2016-02-19 17:37:01 · 447 阅读 · 0 评论 -
flume+kafka+sparkstreaming搭建整合
主要是数据从flume进去kafka,然后交给sparkstreaming处理的流程本文依旧以单词计数例子为例首先,flume使用1.6版本,如果是1.6以下的话,没带有官方的kafkasink,需要自己实现,自己实现也不难实现,写一个自定义的sink,在里面方法调用kafka生产者代码,把数据发送到指定的kafka的broker的topic即可。此处使用1.6版本,直接使用kafka...2015-11-22 00:03:57 · 230 阅读 · 0 评论 -
flume整合sparkstreaming
这里写一个flume整合sparkstreaming的例子我这里使用scala ide和maven的方式spark用的1.2版本,scala是2.10版本,flume使用最新版的1.6整合的第一步,要加上flume的maven依赖[code="java"] org.apache.spark spark-streaming-flume_2.10 1.2.1...2015-11-21 20:48:18 · 113 阅读 · 0 评论 -
akka简单入门例子
spark版本里面用到的就是akka通信,2.0版本 已经不再使用akka了。这里写了一个简单的akka程序。首先定义2个消息类[code="java"]object MyRequest { var message:String=null}[/code][code="java"]object MyResponse { var message:String=null}[/...2016-10-25 17:34:03 · 199 阅读 · 0 评论 -
spark重要的几个算子
spark中有几个算子比较重要,开发中不是很常用,但很多算子的底层都是依靠这几个算子实现的,比如CombineByKey,像reduceByKey底层是combineByKey实现的。首先介绍combineByKey这个算子 主要需要三个参数,第一个是对每个分区中每个key的第一个值 进行初始化,也就是每个分区内,有多少个key就会执行多少次这个初始化[code="java"]object...2016-08-21 17:52:19 · 154 阅读 · 0 评论 -
spark参数设置
//設置sparkconf參數 val sparkConf = new SparkConf() //.setAppName("DirectKafka").set("spark.task.maxFailures", "1") sparkConf.set("spark.rpc.askTimeout", "1200") //设置20分钟 //spark.network.ti...原创 2017-10-30 15:12:28 · 1231 阅读 · 0 评论