大数据
文章平均质量分 62
kk303
这个作者很懒,什么都没留下…
展开
-
hadoop由于NodeManager无法启动而导致执行Jar包出现running job卡住的解决方案之一...
菜鸟上手大数据一头雾水...所以先自己用三个虚拟机搭建一个hadoop集群环境了 hadoop版本2.7.3 JDK版本8u101 系统CentOS7 基本按照 博文 其中有两个值得注意的地方(或者说勘误一下): 其一第8步的mapred-site.xml应为yarn-site.xml 其二还是第8步中关于yarn.nodemanager.resource.mem原创 2016-09-04 02:09:11 · 1925 阅读 · 0 评论 -
Scala版SparkStreaming读写kafka,low level api模板代码存档
spark streaming从kafka的某个topic拉取数据,处理完后再放入某个topic中的一个模板,不完整,作为参考,加了部分备注。 SparkStreaming主程序模板 package jacob.sparkstreaming import java.util import _root_.kafka.serializer.StringDecoder原创 2016-10-08 12:51:31 · 3956 阅读 · 1 评论 -
Spark Streaming 处理中文异常的解决方案
最近用Spark Streaming从Kafka接数据进行处理,是对中文的内容进行计算。发现处理时中文全变成了????????的形式,导致处理的结果和预期的不一样。但把数据放在redis或者放入下游的kafka topic,中文又正常了。为了防止是因为打日志的编码问题导致的判断出错,专门对算法进行了判断,的确就是对?????的东西处理了,而不是原中文字符串。 遇到这种情况,想到的就是编码原创 2016-10-13 23:42:42 · 2229 阅读 · 0 评论 -
用户行为日志的统计,Java mapreduce与Scala spark的代码存档...
原意是想存档一份spark的wordcount的代码,但觉得wordcount能体现出的东西少了一些,再加上写成spark遇到了各种各样的坑,索性就把之前写过的一个用java mapreduce写的用户行为日志统计的代码用scala的spark逻辑上大致实现了一次(不完全一致,有实现的细节差别),以证明初步写成一个spark程序。代码仅供参考map,reduce文件读写过程,由于缺少引用的相关包,原创 2016-09-18 19:00:15 · 1461 阅读 · 0 评论