Spark各类算法的应用场景

SparkMlib是Spark项目的其中一个模块,包含了当前比较热门的机器学习算法,这些算法API主要分成两种。ML和MLIB。 本文对官方文档中描述的一些算法和工具进行了简单的介绍。 ML主要针对DataFrame,MLIB则面向RDD,算法的种类基本一致,我个人比较偏向于ML,结构化的数据更易...

2017-01-23 10:22:40

阅读数 3648

评论数 0

如何在spark-streaming中获取通过kafka传递的flume信息header

默认模式下,Spark-streaming只能拿到flume tail到的文字,但是某些情况下我们希望spark也能处理一些header中的内容。 譬如说上述配置文件中在tail的同时,我们还向header中添加了timestamp以及host信息。 那么如何将header传递给spark呢?

2016-12-27 16:58:57

阅读数 3045

评论数 3

Spark submit deploy_mode cluster 中的第三方JAR包

本文介绍了一个种解决spark在cluster模式下提交作业无法添加第三方JAR包并引起class not found 异常的解决方案

2016-12-26 15:30:33

阅读数 4581

评论数 0

利用gradle shadowjar构建包含依赖的JAR包

利用gradle shadow构建包含依赖的JAR包

2016-12-26 15:24:33

阅读数 9747

评论数 0

Apche Phoenix,Spark的绝配搭档

Spark相信大家不会陌生,翻开有关大数据的报刊杂志,大家都在讨论Spark.也会有不少公司依靠Spark构建数据仓库。但我今天介绍的是另一款软件Apache Phoenix.那么它是用来解决什么问题的呢?为什么说它和Spark是绝配的搭档?作为一个数据仓库,繁琐的数据处理只是其中的一环,这也正是...

2016-07-20 15:16:43

阅读数 4692

评论数 0

android maven can not find appt

尼玛的 各种BUG啊  maven-android 各种BUG啊 1.can not find appt            原因是sdk目录变了  把build-tools/17.0.0 下的文件 copy到 platform-tools 下少什么copy什么  2.还...

2013-07-12 15:28:53

阅读数 742

评论数 0

JENKINS bad_recordmac svn 插件

最近搭建Jenkins 遇到三个BUG 1.对于HTTPS的SVN 始终报错 bad_recordmac  什么的     解决办法: 换成JDK1.7 2.SVN始终显示没有权限.即使认证成功     删除掉你${user.home}/.subversio...

2013-06-10 17:49:24

阅读数 948

评论数 0

Spring MVC 单元测试

作为WEB开发人员在开发过程中总是需要测试各种请求  常规的方法则是启动WEB服务器 测试 出错 停掉WEB 改代码 重启WEB 测试  大量的时间都浪费在WEB服务器的启动上 今天给大家介绍一种不用启动WEB 直接采用单元测试的方法来测试请求是否准确  该方法基于SpringMVC 与 Sp...

2013-05-14 18:26:44

阅读数 35451

评论数 18

Spring Mongodb集成

1.先上配置文件: <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xm...

2013-03-25 15:48:48

阅读数 8581

评论数 7

使用concurrent 重写生产者 消费者

场景:学生来食堂吃馒头                    1.食堂位置有限,只有10个座位,其中3个座位是厨师大叔的,其他7个座位是学生的。学生共有100个。          2.食堂的大框只能容下10个馒头。          3.大叔在学生来之前会事先准备好10个馒头。    ...

2013-03-25 15:32:14

阅读数 823

评论数 0

CDH4 HA集群安装搭建手册

CDH4 HA搭建手册V1.2   一、           机器情况 ocdata17 10.1.253.27 ocdata18 10.1.253.28 ocdata19 10.1.253.29   我们有两台NAMENODE机器 分别部署在ocdat...

2013-03-13 12:53:04

阅读数 5159

评论数 0

联接HIVE SERVER客户端的三种方式

在Hive/bin 目录下输入./hive --service hiveserver 代表hive启动了服务器模式。 和普通模式不同的是,这时hive同时启动了一个名为thrift的服务器。 你不用去研究这个服务器的原理,认为他是一个传递信息的人就好,你可以通过他向hive发送命令,然...

2013-02-28 16:09:11

阅读数 10351

评论数 0

关于HIVE的SELECT count(*) 优化

刚刚下载了一份HIVE的最新源码。 印象最深的是HIVE将表的大小作为了元数据保存在了关系数据库中。 譬如在老版本中执行如下的语句: from base insert overwrite table user select * ; 你会发现日志的末尾会有 “999 ROWD...

2013-02-28 16:07:59

阅读数 7110

评论数 2

HIVE:No suitable driver found for jdbc:mysql://localhost:3306/hive

搭建HIVE的过程中遇到了如上问题: 表面上看是缺少适合的驱动程序,但是我的HIVE/LIB下的确是有相应的JAR包的。 GOOGLE了一下 The value property should not contain any spaces or carriage returns....

2013-02-28 16:07:07

阅读数 2900

评论数 0

HIVE针对反斜杠的正则替换问题

最近收到一份需求: 有两张表 one  和  two . 两张表都有一个字段name,现在要求从one 导入到two 中。 要求是            name字段有可能为空 ,在HIVE中默认是用"\N"来表示空,也就是ONE表在HDFS上文件包含&q...

2013-02-28 15:31:21

阅读数 9699

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭