spark参数设置

//設置sparkconf參數 val sparkConf = new SparkConf() //.setAppName("DirectKafka").set("spark.task.maxFailures", &...

2017-10-30 15:12:28

阅读数 53

评论数 0

修改并编译spark源码

这里说一下spark源码的编译,可以修改一些源码,进行编译,这里我们修改一下spark-shell启动时输出消息的代码,这地方不用多说,使用 idea导入spark官网 下载的spark1.6源码,然后修改,回到spark源码解压目录,这里首先配置maven,jdk等环境变量。[code=&...

2017-08-09 10:11:36

阅读数 61

评论数 0

scala调用api操作elasticsearch时long类型问题解决

在scala写spark程序的时候,为了方便控制,会调用java的api进行操作elasticsearch,这时候,需要一个map,接收具体的字段,这地方有会一个问题,就是接受的这个map必须是AnyRef类型的,比如我们需要存入一个long类型的值,比如时间是个long,那么直接写入就会有问题,...

2017-07-27 17:34:28

阅读数 176

评论数 0

linux解决软件托盘不显示问题

ubuntu利用了crossover安装了qq,需要解决乱码问题 把win7中的宋体文件拷贝到/opt/cxoffice/support/apps.com.qq.im/drive_c/windows/Fonts里面去,重启,解决了乱码问题。 还有一个问题就是最小化后托盘不显示,找不到qq了...

2017-07-19 00:49:16

阅读数 225

评论数 0

spark源码分析之SparkContext初始化一

基于standalone模式 这里,我们主要关注最主要的2个地方的初始化,首先是TaskScheduler的创建初始化。[code="java"]// Create and start the scheduler val (sched, ts) ...

2017-07-04 18:18:35

阅读数 27

评论数 0

Akka的生命周期

首先定义一个类,继承Actor[code="java"]class akka001 extends Actor{ override def preStart() ={ println("this is preStart()&am...

2017-07-04 09:52:33

阅读数 24

评论数 0

akka简单入门例子

spark版本里面用到的就是akka通信,2.0版本 已经不再使用akka了。这里写了一个简单的akka程序。 首先定义2个消息类[code="java"]object MyRequest { var message:String=null }[/co...

2016-10-25 17:34:03

阅读数 14

评论数 0

spark重要的几个算子

spark中有几个算子比较重要,开发中不是很常用,但很多算子的底层都是依靠这几个算子实现的,比如CombineByKey,像reduceByKey底层是combineByKey实现的。 首先介绍combineByKey 这个算子 主要需要三个参数,第一个是对每个分区中每个key的第一个值 进行...

2016-08-21 17:52:19

阅读数 32

评论数 0

elasticsearch与spark,hbase等jar包冲突导致报错问题

在原有的spark程序中,其中包含hhase,spark等,会出现jar包冲突导致有异常的问题,程序中都是使用maven。 在异常中,包含nosuchmethod的异常错误信息,可以看出是guava版本与hadoop版本不一致导致,Hadoop中使用的是12版本,而es2.3.1默认使用18版本...

2016-07-19 21:52:01

阅读数 124

评论数 0

spark实现hadoop中获取文件名的功能

hadoop1版本中提供了获取文件名的功能,就是在map阶段可以获取每一行记录属于哪个文件,可以得到这个文件名,代码如下:[code="java"]//获取文件名 InputSplit inputSplit=(InputSplit)context.getInp...

2016-02-19 17:37:01

阅读数 160

评论数 0

linux的ntp服务器时间同步设置

时间同步这个需求在很多地方都有。比如安装cm和cdh的话,需要ntp时间同步,否则会出现红色警告 这里主要是设置一台服务器作为主服务器,让其他机器同步这台机器的时间,而且是配置的本地时间,没有同步internet时间,因为很多时候服务器不能联网 首先我们这里设置2台机器,主机器为192.1...

2015-12-01 22:00:25

阅读数 122

评论数 0

flume+kafka+sparkstreaming搭建整合

主要是数据从flume进去kafka,然后交给sparkstreaming处理的流程 本文依旧以单词计数例子为例 首先,flume使用1.6版本,如果是1.6以下的话,没带有官方的kafkasink,需要自己实现,自己实现也不难实现,写一个自定义的sink,在里面方法调用kafka生产者代码,...

2015-11-22 00:03:57

阅读数 53

评论数 0

flume整合sparkstreaming

这里写一个flume整合sparkstreaming的例子 我这里使用scala ide和maven的方式 spark用的1.2版本,scala是2.10版本,flume使用最新版的1.6 整合的第一步,要加上flume的maven依赖[code="java&q...

2015-11-21 20:48:18

阅读数 12

评论数 0

flume集群搭建

搭建一个flume集群,设置2个节点,如下图这样的集群 [img]http://dl2.iteye.com/upload/attachment/0111/7129/d521584b-e8a6-32f4-8a09-b167c86a401d.png[/img] 2个节点分别为192.168.5...

2015-09-15 11:30:39

阅读数 224

评论数 0

hadoop求最大值方法

hadoop求最大值问题,代码比求最值前N个要简单一些,因为直接使用LongWritable类型,不需要自定义hadoop对象进行比较,所以直接覆盖map和reduce方法,并且覆盖cleanup方法,这是在map和reduce都执行完成之后才会执行的方法,只需要把最大值写入即可 [code=&...

2015-03-26 22:53:51

阅读数 43

评论数 0

hadoop处理前N个最值问题

例子为100W 条数据 取出前十个最值(纯本人看完课程后的手写,没有参考网上,结果应该没问题的,也没找到标准答案写法。。) 首先,由于值都是double,默认的排序方式是升序,这里面我们取得是降序,所以自定义hadoop对象,并实现WritableComparable接口,然后覆盖compa...

2015-03-26 22:48:32

阅读数 22

评论数 0

hadoop处理手机流量小例子

最近一直在学习hadoop 这是一个简单的关于MapReduce的示例 通过实现map和reduce2个函数完成操作 首先定义一个自定义对象 [code="java"]class MyWriterble implements Writable{ ...

2015-03-09 23:45:03

阅读数 50

评论数 0

Oracle表中重复数据去重的方法

我们在项目中肯定会遇到一种情况 就是表中没有主键 有重复数据 或者有主键 但是部分字段有重复数据 而我们需要过滤掉重复数据 下面是一种解决方法 [code="java"] delete from mytest ms where rowid in ...

2014-08-22 21:08:08

阅读数 165

评论数 0

关于plsql执行时异常想要继续执行的问题

在项目中 我们会经常遇到用plsql写存储过程 遍历游标往表里面插入数据的问题 但是如果安装正常情况写的话 如果中途有异常抛出 那么就会不继续执行了 但是 还有种情况就是我们需要他继续插入 不能插入抛出异常的记录下来 不用影响后续的插入 解决的办法是嵌套begin end; 把会有可能...

2014-07-16 22:36:23

阅读数 428

评论数 0

oracle存储过程select into报错no_data_found异常处理

在写循环游标过程中,做一些操作 就像select into 这种,当查到的是null值时就会报这个 异常 这个时候加NVL是不能解决问题的 把查询的字段加上MAX这样的组函数就可以了 这样就不会报错了 select MAX(字母哥) into XXX ok......

2014-06-26 22:40:28

阅读数 111

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭