iteye_6622-CSDN博客

hive on spark 编译

前置条件说明Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive on Tez的道理一样。从Hive 1.1版本开始，Hive on Spark已经成为Hive代码的一部分了，并且在spark分支上面，可以看这里https://github.com/apache/hive/tree/spark，并会定期的移到master分支...

2015-09-30 17:27:07 573

sparksql与hive整合

hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value> <description>Thrift uri for...

2015-09-22 15:19:34 325

Tachyon 0.7.1伪分布式集群安装与测试: http://blog.csdn.net/stark_summer/article/details/48321605 从官方文档得知，Spark 1.4.x和Tachyon 0.6.4版本兼容，而最新版的Tachyon 0.7.1和Spark 1.5.x兼容，目前所用的Spark为1.4.1，tachyon为 0.7.1tachyon 与 ...

2015-09-22 15:16:44 246

spark取得lzo压缩文件报错 java.lang.ClassNotFoundException: Class com.hadoop.compression

恩,这个问题,反正是我从来没有注意的问题,但今天还是写出来吧配置信息hadoop core-site.xml配置<property> <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.GzipCodec,org.ap...

2015-09-17 14:25:29 431

Tachyon 0.7.1伪分布式集群安装与测试

Tachyon是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享，就像Spark和 MapReduce那样。通过利用信息继承，内存侵入，Tachyon获得了高性能。Tachyon工作集文件缓存在内存中，并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件。因此，Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数。源码...

2015-09-10 18:47:37 124

Apache Spark 1.5.0正式发布

Spark 1.5.0是1.x线上的第6个发行版。这个版本共处理了来自230+contributors和80+机构的1400+个patches。Spark 1.5的许多改变都是围绕在提升Spark的性能、可用性以及操作稳定性。Spark 1.5.0焦点在Tungsten项目，它主要是通过对低层次的组建进行优化从而提升Spark的性能。Spark 1.5版本为Streaming增加了operati...

2015-09-09 18:07:09 336

zeppelin入门使用

Display Systemtext 默认使用scala语言输出text内容 shell html scala 输出html shell 输出html table scala shell table scala: shell: html: Manual动态表格使用表格模板文本输入格式：使用 for...

2015-09-09 17:15:32 244

spark standalone模式 zeppelin安装

1. 前置条件 None root account Apache Maven Java 1.72. 源码 https://github.com/apache/incubator-zeppelin git clone https://github.com/apache/incubator-zeppelin3. 编译...

2015-09-09 13:54:04 146

启动hive命令报错 “Metastore contains multiple versions”

错误日志： Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at org.apache.h...

2015-09-02 14:40:56 257

在 Databricks 可获得 Spark 1.5 预览版

我们兴奋地宣布,从今天开始,Apache Spark1.5.0的预览数据砖是可用的。我们的用户现在可以选择提供集群与Spark 1.5或先前的火花版本准备好几个点击。正式,Spark 1.5预计将在数周内公布,和社区所做的QA测试的版本。鉴于火花的快节奏发展,我们觉得这是很重要的,使我们的用户尽快开发和利用新特性。与传统的本地软件部署,它可以需要几个月,甚至几年,从供应商收到软件更新。数据...

2015-08-25 14:02:01 95

hadoop点击AM所在node节点的logs链接报错 "Sorry, got error 404"

问题描述打开hadoop 集群地址,hostname:8088选择任何一个已经FINISHED或者FAILED的任务,然后点击 appplicationID ,比如:application_1439618500064_1100 进去ApplicationMaster 信息页面点击logs链接就报错如下求助目前感觉这个问题很诡异,也从来没有遇到过,大家有...

2015-08-17 17:39:54 172

iteye为什么不支持markdown?

iteye为什么不支持markdown?难道没技术支持了?个人感觉csdn markdown支持的很好

2015-08-11 16:45:26 91

spark implementation hadoop setup,cleanup

写道 def main(args: Array[String]) { val sc = new SparkContext("local", "xxx") val inputData = sc.textFile("hdfs://master:8020/data/spark/user-history-data") val lines = inputData.map(line =&gt...

2015-08-11 16:38:39 104

最近hadoop遇到的issuses

https://issues.apache.org/jira/browse/YARN-182 https://issues.apache.org/jira/browse/YARN-903 https://issues.apache.org/jira/browse/HBASE-10304 https://issues.apache.org/jira/browse/SPARK-5350待续未完成...

2015-08-07 14:51:30 114

Spark的日志配置

在测试spark计算时，将作业提交到yarn（模式–master yarn-cluster）上，想查看print到控制台这是imposible的，因为作业是提交到yarn的集群上，so 去yarn集群上看日志是很麻烦的，但有特别想看下print的信息，方便调试或者别的目的在Spark的conf目录下，把log4j.properties.template修改为log4j.properties...

2015-08-03 17:20:46 268

spark 查看 job history 日志

SPARK_HOME/conf 下:spark-defaults.conf 增加如下内容spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress truespark-env.sh 增加如下内容export SPARK_HISTO...

2015-06-11 17:09:27 213

spark总体概况

1. spark vs hadoopPS:Databricks团队特别说明，为了和Hadoop对比，这次用于排序的Spark集群没有使用它们的内存缓存机制，他们也是用硬盘存储的中间结果！ http://tieba.yunxunmi.com/mtieba-hadoop-kz-58b9e430a78747f7fb1ea9f9e6374597.html 但是我们要明白，spark的目标是与h...

2015-05-27 14:55:37 100

基于spark1.3.1的spark-sql实战－02

Hive Tables将HIVE_HOME/conf/hive-site.xml 文件copy到SPARK_HOME/conf/下 When not configured by the hive-site.xml, the context automatically creates metastore_db and warehouse in the current directory....

2015-05-20 14:45:51 76

HiveServer2 入门使用

Beeline – 一个新的命令行ShellHiveServer2 supports a new command shell Beeline that works with HiveServer2. It's a JDBC client that is based on the SQLLine CLI (http://sqlline.sourceforge.net/). There’s de...

2015-05-20 14:40:56 191

基于spark1.3.1的spark-sql实战－01

sqlContext总的一个过程如下图所示：SQL语句经过SqlParse解析成UnresolvedLogicalPlan；使用analyzer结合数据数据字典（catalog）进行绑定，生成resolvedLogicalPlan；使用optimizer对resolvedLogicalPlan进行优化，生成optimizedLogicalPlan；使用Sp...

2015-05-19 13:51:21 93

个人微信公众号，每天推送一篇高质量文章

个人微信公众号，每天推送一篇高质量文章，喜欢的就订阅吧

2015-03-11 12:40:57 1226

HBase 系统架构

HBase 系统架构图　　　　组成部件说明　　Client：　　使用HBase RPC机制与HMaster和HRegionServer进行通信　　Client与HMaster进行通信进行管理类操作　　Client与HRegionServer进行数据读写类操作　　Zookeeper：　　Zookeeper Quorum存储-ROOT-表地址、HMaster地址　　HRegio...

2015-03-10 15:22:05 68

非mapreduce生成Hfile，然后导入hbase当中

最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfil...

2015-03-10 15:19:23 91

Spark 性能相关参数配置详解－任务调度篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便于更新内容 schedu...

2015-03-05 18:31:16 86

整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2...

2015-03-03 15:01:17 56

spark SQL编程动手实战-01

首先创建SparkContext上下文：接着引入隐身转换，用于把RDD转成SchemaRDD:接下来定义一个case class 来用于描述和存储SQL表中的每一行数据：接下来要加载数据，这里的测试数据是user.txt文件：我们创建好use.txt增加内容并上传到hdfs中：web控制台查询：hdfs命令查询：加载数据：验证数据...

2015-03-02 18:28:37 83

zookeeper伪分布安装和使用

1、下载路径为：http://mirrors.cnnic.cn/apache/zookeeper/stable/2、安装：第一步解压zookeeper压缩包：进入 zookeeper安装目录第二步创建一个data目录：第三步修改 conf/zoo.cfg文件：先将zoo_sample.cfg copy 为 zoo.cfg然后编辑zoo.c...

2015-02-13 11:00:59 151

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-02

接下来进行打包，使用Project Structure的Artifacts：使用From modules with dependencies：选择Main Class：点击“OK”:把名称改为SparkDemoJar：因为每台机器上都安装了Scala和Spark，所以可以把Scala和Spark相关的jar文件都删除掉：接下来进行Bui...

2015-02-12 13:04:38 70

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-01

创建一个Scala IDEA工程：点击“Next”：点击“Finish”完成工程的创建：修改项目的属性：首先修改Modules选项：在src下创建两个文件夹，并把其属性改为source：再修改Libraries：因为要开发Spark程序，所以需要把Spark的开发需要的jar包导进来：导入包完成后，在工程的scal...

2015-02-10 13:10:41 64

spark1.2.0版本搭建伪分布式环境

、下载scala2.11.5版本，下载地址为：http://www.scala-lang.org/download/2.11.5.html2、安装和配置scala：第一步：上传scala安装包并解压第二步配置SCALA_HOME环境变量到bash_profile第三步 source 使配置环境变量生效：第四步验证scala：3、下载spark 1...

2015-02-09 11:18:09 59

hadoop2.6.0版本搭建伪分布式环境

由于个人需要在自己的笔记本上搭建hadoop伪分布环境，为了方便自己使用，如想看机器也看之前的一篇博客：hadoop2.6.0版本集群环境搭建一台虚拟机，配置信息如下：内存：1G，cpu：一个core,硬盘：15G1、修改下主机名为mastersudo vi /etc/sysconfig/network修改结果后：重启电脑后再查看结果：修改主机名成功...

2015-02-06 15:58:36 84

Spark API编程动手实战-07-join操作深入实战

我们在hdfs的/data/join创建两个文件：上传第一个文件名称为1.txt内容第一列是日期，第二列uid(普通用户id) 上传第二个文件名称为2.txt内容第一列是日期，第二列uid(普通用户id)执行上传到hdfs：hdfs命令行查询：web控制台管理查询：首先在命令行中设置日期格式：然后声明两个case class：R...

2015-02-05 14:39:36 91

原创 centos修改主机名整理（勿喷）

1.临时修改主机名显示主机名：spark@master:~$ hostnamemaster修改主机名：spark@master:~$ sudo hostname hadoopspark@master:~$ hostnamehadoop PS:以上的修改只是临时修改，重启后就恢复原样了。 2.永久修改主机名 redhat/centos上永久修改...

2015-02-05 14:38:04 71

clover分布式任务调度系统

1、clover分布式调度介绍 clover分布式任务调度是完全使用Java技术自主开发特点如下:1、防单点故障2、job可部署多台，但任务调度时，只有一台参执行。如果一台下线，clover选择其他已在zookeeper注册job来执行。3、可管理监控程序，相关负责人的job不可用会发送邮件通知4、提供管理后台，可手动停止任务，设置任务执行频率、恢复策略。...

2015-02-04 16:23:15 273

Spark API编程动手实战-06-对搜狗日志文件深入实战操作

本节中所用到的内容是来自搜狗实验室，网址为：http://www.sogou.com/labs/dl/q.html我们使用的是迷你版本的tar.gz格式的文件，其大小为87K，下载后如下所示：上传到服务器后，解压并查看：查看Sogou文件内容：该文件的格式如下所示：访问时间 \t 用户ID \t 查询词 \t 该URL在返回结果中的排名 \ t用户点击...

2015-02-04 11:05:21 106

Linux下解压命令大全解压缩 tar bz2 zip tar.gz gz

.tar解包：tar xvf FileName.tar打包：tar cvf FileName.tar DirName（注：tar是打包，不是压缩！）———————————————.gz解压1：gunzip FileName.gz解压2：gzip -d FileName.gz压缩：gzip FileName.tar.gz 和 .tgz解压：tar zxvf FileName.tar.gz压缩：ta...

2015-02-03 16:07:13 99

Spark API编程动手实战-05-spark文件操作和debug

这次我们以指定executor-memory参数的方式来启动spark-shell：启动成功了在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小，启动成功后参看web页面：从hdfs上读取文件：在命令行中返回的MappedRDD，使用toDebugString，可以查看其lineage的关系：...

2015-02-02 20:10:30 71

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKey、join、reduce、lookup等操作实践...

下面看下union的使用：使用collect操作查看一下执行结果：再看下groupByKey的使用：执行结果： join操作就是一个笛卡尔积操作的过程，如下示例：对rdd3和rdd4执行join操作：使用collect查看执行结果：可以看出join操作完全就是一个笛卡尔积的操作；reduce本身在RDD操作中属于...

2015-01-30 16:36:12 84

Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序

从前一篇文章中的wordcount的输出结果可以看出来结果是未经排序的，如何对spark的输出结果进行排序呢？先对reduceByKey的结果进行key,value位置置换（数字，字符），然后再进行数字排序，再将key，value位置置换后就是排序后的结果了，最终将结果存储到HDFS中可以发现我们成功对输出结果进行排序！...

2015-01-29 13:21:34 68

Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count

操作HDFS：先要保证HDFS启动了：启动spark集群：以spark-shell运行在spark集群上：查看下之前上传到HDFS上的”LICENSE.txt“文件：用spark读取这个文件：使用count统计该文件的行数：我们可以看到count 耗时为0.239708s对该RDD进行cache操作并执行count使得缓存生效：...

2015-01-28 13:56:27 97

空空如也

空空如也