2016年01月_DataGPT

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Hive on Spark解析

Hive是基于Hadoop平台的数据仓库，最初由Facebook开发，在经过多年发展之后，已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark（SparkSQL的前身）等引擎而言，Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最初的计算引擎为MapReduce，受限于其自身的Map+Reduce计算模式，以及不够充分的大内利用，MapReduce

2016-01-20 21:17:51 1189

原创 Akka在运行时对消息进行实时切换处理的特性: become和unbecome

Akka支持在运行时对角色消息循环 (例如它的的实现)进行实时替换: 在角色中调用getContext.become 方法。热替换的代码被存在一个栈中，可以被pushed（replacing 或 adding 在顶部）和popped。become一个特别好的例子是用它来实现一个有限状态机。使用Become/Unbecome特性还可以很方便的实现状态转换机。实例：Actor运行

2016-01-17 16:29:00 1211

原创编写Akka程序实现WordCount功能

MapReduceApplication.scala是程序的入口，执行后产生结果如下：{hello=2, love=3, hadoop=2, hi=1, spark=2, and=1, i=3} 下面将逐个分析代码：1. MapReduceApplication.scala主要是向MasterActor发送待统计的消息，完整代码如下： package myakka.mess

2016-01-16 15:51:59 1453

原创 Scala编程中常见错误：Error:(24, 29) value foreach is not a member of java.util.Set[String]

问题:在Scala编程开发中, 经常会出现类似如下的错误,Error:(24, 29) value foreach is not a member of java.util.Set[String] for (key ^或Error:(21, 22) value filter is not a member of

2016-01-16 14:24:18 12852

原创 Error:scalac: missing or invalid dependency detected while loading class file 'ActorSystem.class'.

Akka环境：集成开发环境: IntelliJ IDEA 14.1.5Scala版本： scala-sdk-2.11.7Akka版本: akka-actor_2.11-2.3.14JDK版本: jdk1.7.0_79问题：运行Akka程序时，报错如下：Error:scalac: missing or invalid dependency detected w

2016-01-16 14:07:50 4662

原创 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/ql/CommandNeedRetr

问题如下：[hadoop@gpmaster hadoop]$ hiveException in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/ql/CommandNeedRetryExceptionat java.lang.Class.forName0(Native Method)at ja

2016-01-11 20:48:53 4231

原创获取Tachyon上的数据去执行Hadoop的MapReduce程序

本文档介绍如何获取Tachyon上的数据去执行Hadoop的MapReduce程序。1. 前提条件l 安装好Java JDK 6及以上l 安装并正常运行Hadoop环境l 安装并正常运行Tachyon环境(本地模式或集群模式)2. 使用Hadoop 1.x如果你使用Hadoop 1.x集群环境，那么需要确保core-site.xml文件配置如下内容：

2016-01-10 15:50:21 872