自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(204)
  • 收藏
  • 关注

hive on spark 编译

前置条件说明Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样。 从Hive 1.1版本开始,Hive on Spark已经成为Hive代码的一部分了,并且在spark分支上面,可以看这里https://github.com/apache/hive/tree/spark,并会定期的移到master分支...

2015-09-30 17:27:07 573

sparksql与hive整合

hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value> <description>Thrift uri for...

2015-09-22 15:19:34 325

tachyon与hdfs,以及spark整合

Tachyon 0.7.1伪分布式集群安装与测试: http://blog.csdn.net/stark_summer/article/details/48321605 从官方文档得知,Spark 1.4.x和Tachyon 0.6.4版本兼容,而最新版的Tachyon 0.7.1和Spark 1.5.x兼容,目前所用的Spark为1.4.1,tachyon为 0.7.1tachyon 与 ...

2015-09-22 15:16:44 246

spark取得lzo压缩文件报错 java.lang.ClassNotFoundException: Class com.hadoop.compression

恩,这个问题,反正是我从来没有注意的问题,但今天还是写出来吧配置信息hadoop core-site.xml配置<property>   <name>io.compression.codecs</name>        <value>org.apache.hadoop.io.compress.GzipCodec,org.ap...

2015-09-17 14:25:29 431

Tachyon 0.7.1伪分布式集群安装与测试

Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件。因此,Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数。源码...

2015-09-10 18:47:37 124

Apache Spark 1.5.0正式发布

Spark 1.5.0是1.x线上的第6个发行版。这个版本共处理了来自230+contributors和80+机构的1400+个patches。Spark 1.5的许多改变都是围绕在提升Spark的性能、可用性以及操作稳定性。Spark 1.5.0焦点在Tungsten项目,它主要是通过对低层次的组建进行优化从而提升Spark的性能。Spark 1.5版本为Streaming增加了operati...

2015-09-09 18:07:09 336

zeppelin入门使用

Display Systemtext 默认使用scala语言输出text内容 shell html scala 输出html shell 输出html table scala shell table scala:  shell:  html: Manual动态表格使用表格模板 文本输入格式: 使用 for...

2015-09-09 17:15:32 244

spark standalone模式 zeppelin安装

1.  前置条件 None root account Apache Maven Java 1.72. 源码   https://github.com/apache/incubator-zeppelin   git clone https://github.com/apache/incubator-zeppelin3. 编译...

2015-09-09 13:54:04 146

启动hive命令报错 “Metastore contains multiple versions”

错误日志: Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at org.apache.h...

2015-09-02 14:40:56 257

在 Databricks 可获得 Spark 1.5 预览版

我们兴奋地宣布,从今天开始,Apache Spark1.5.0的预览数据砖是可用的。我们的用户现在可以选择提供集群与Spark 1.5或先前的火花版本准备好几个点击。正式,Spark 1.5预计将在数周内公布,和社区所做的QA测试的版本。鉴于火花的快节奏发展,我们觉得这是很重要的,使我们的用户尽快开发和利用新特性。与传统的本地软件部署,它可以需要几个月,甚至几年,从供应商收到软件更新。数据...

2015-08-25 14:02:01 95

hadoop点击AM所在node节点的logs链接报错 "Sorry, got error 404"

问题描述打开hadoop 集群地址,hostname:8088选择任何一个已经FINISHED或者FAILED的任务,然后点击 appplicationID ,比如:application_1439618500064_1100 进去ApplicationMaster 信息页面 点击logs链接就报错如下  求助目前 感觉这个问题很诡异,也从来没有遇到过,大家有...

2015-08-17 17:39:54 172

iteye为什么不支持markdown?

iteye为什么不支持markdown?难道没技术支持了?个人感觉csdn markdown支持的很好

2015-08-11 16:45:26 91

spark implementation hadoop setup,cleanup

 写道 def main(args: Array[String]) { val sc = new SparkContext("local", "xxx") val inputData = sc.textFile("hdfs://master:8020/data/spark/user-history-data") val lines = inputData.map(line =&gt...

2015-08-11 16:38:39 104

最近hadoop遇到的issuses

https://issues.apache.org/jira/browse/YARN-182 https://issues.apache.org/jira/browse/YARN-903 https://issues.apache.org/jira/browse/HBASE-10304 https://issues.apache.org/jira/browse/SPARK-5350待续未完成...

2015-08-07 14:51:30 114

Spark的日志配置

在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的,因为作业是提交到yarn的集群上,so 去yarn集群上看日志是很麻烦的,但有特别想看下print的信息,方便调试或者别的目的在Spark的conf目录下,把log4j.properties.template修改为log4j.properties...

2015-08-03 17:20:46 268

spark 查看 job history 日志

SPARK_HOME/conf 下:spark-defaults.conf 增加如下内容spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress truespark-env.sh 增加如下内容export SPARK_HISTO...

2015-06-11 17:09:27 213

spark总体概况

1. spark vs hadoopPS:Databricks团队特别说明,为了和Hadoop对比,这次用于排序的Spark集群没有使用它们的内存缓存机制,他们也是用硬盘存储的中间结果! http://tieba.yunxunmi.com/mtieba-hadoop-kz-58b9e430a78747f7fb1ea9f9e6374597.html 但是我们要明白,spark的目标是与h...

2015-05-27 14:55:37 100

基于spark1.3.1的spark-sql实战-02

Hive Tables将HIVE_HOME/conf/hive-site.xml 文件copy到SPARK_HOME/conf/下 When not configured by the hive-site.xml, the context automatically creates metastore_db and warehouse in the current directory....

2015-05-20 14:45:51 76

HiveServer2 入门使用

Beeline – 一个新的命令行ShellHiveServer2 supports a new command shell Beeline that works with HiveServer2. It's a JDBC client that is based on the SQLLine CLI (http://sqlline.sourceforge.net/). There’s de...

2015-05-20 14:40:56 191

基于spark1.3.1的spark-sql实战-01

 sqlContext总的一个过程如下图所示:SQL语句经过SqlParse解析成UnresolvedLogicalPlan;使用analyzer结合数据数据字典(catalog)进行绑定,生成resolvedLogicalPlan;使用optimizer对resolvedLogicalPlan进行优化,生成optimizedLogicalPlan;使用Sp...

2015-05-19 13:51:21 93

个人微信公众号,每天推送一篇高质量文章

个人微信公众号,每天推送一篇高质量文章,喜欢的就订阅吧

2015-03-11 12:40:57 1226

HBase 系统架构

HBase 系统架构图    组成部件说明   Client:   使用HBase RPC机制与HMaster和HRegionServer进行通信   Client与HMaster进行通信进行管理类操作   Client与HRegionServer进行数据读写类操作   Zookeeper:   Zookeeper Quorum存储-ROOT-表地址、HMaster地址   HRegio...

2015-03-10 15:22:05 68

非mapreduce生成Hfile,然后导入hbase当中

最近一个群友的boss让研究hbase,让hbase的入库速度达到5w+/s,这可愁死了,4台个人电脑组成的集群,多线程入库调了好久,速度也才1w左右,都没有达到理想的那种速度,然后就想到了这种方式,但是网上多是用mapreduce来实现入库,而现在的需求是实时入库,不生成文件了,所以就只能自己用代码实现了,但是网上查了很多资料都没有查到,最后在一个网友的指引下,看了源码,最后找到了生成Hfil...

2015-03-10 15:19:23 91

Spark 性能相关参数配置详解-任务调度篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。 由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config.readthedocs.org/,主要是便于更新内容  schedu...

2015-03-05 18:31:16 86

整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2...

2015-03-03 15:01:17 56

spark SQL编程动手实战-01

首先创建SparkContext上下文:接着引入隐身转换,用于把RDD转成SchemaRDD:接下来定义一个case class 来用于描述和存储SQL表中的每一行数据:接下来要加载数据,这里的测试数据是user.txt文件:我们创建好use.txt增加内容并上传到hdfs中:web控制台查询:hdfs命令查询: 加载数据:验证数据...

2015-03-02 18:28:37 83

zookeeper伪分布安装和使用

1、下载路径为:http://mirrors.cnnic.cn/apache/zookeeper/stable/2、安装:第一步 解压zookeeper压缩包:进入 zookeeper安装目录第二步 创建一个data目录: 第三步 修改 conf/zoo.cfg文件:先将zoo_sample.cfg copy 为 zoo.cfg然后 编辑zoo.c...

2015-02-13 11:00:59 151

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-02

接下来进行打包,使用Project  Structure的Artifacts:使用From modules with dependencies:选择Main Class: 点击“OK”:把名称改为SparkDemoJar:因为每台机器上都安装了Scala和Spark,所以可以把Scala和Spark相关的jar文件都删除掉:接下来进行Bui...

2015-02-12 13:04:38 70

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-01

创建一个Scala IDEA工程:点击“Next”:点击“Finish”完成工程的创建:修改项目的属性: 首先修改Modules选项: 在src下创建两个文件夹,并把其属性改为source:再修改Libraries:因为要开发Spark程序,所以需要把Spark的开发需要的jar包导进来: 导入包完成后,在工程的scal...

2015-02-10 13:10:41 64

spark1.2.0版本搭建伪分布式环境

、下载scala2.11.5版本,下载地址为:http://www.scala-lang.org/download/2.11.5.html2、安装和配置scala:第一步:上传scala安装包 并解压第二步 配置SCALA_HOME环境变量到bash_profile第三步 source 使配置环境变量生效:第四步 验证scala:3、下载spark 1...

2015-02-09 11:18:09 59

hadoop2.6.0版本搭建伪分布式环境

由于个人需要在自己的笔记本上搭建hadoop伪分布环境,为了方便自己使用,如想看机器也看之前的一篇博客:hadoop2.6.0版本集群环境搭建一台虚拟机,配置信息如下:内存:1G,cpu:一个core,硬盘:15G1、修改下主机名为mastersudo vi /etc/sysconfig/network修改结果后:重启电脑后再查看结果:修改主机名成功...

2015-02-06 15:58:36 84

Spark API编程动手实战-07-join操作深入实战

我们在hdfs的/data/join创建两个文件:上传第一个文件名称为1.txt内容第一列是日期,第二列uid(普通用户id) 上传第二个文件名称为2.txt内容第一列是日期,第二列uid(普通用户id)执行上传到hdfs:hdfs命令行查询:web控制台管理查询:首先在命令行中设置日期格式:然后声明两个case class:R...

2015-02-05 14:39:36 91

原创 centos修改主机名整理(勿喷)

1.临时修改主机名 显示主机名:spark@master:~$ hostnamemaster修改主机名:spark@master:~$ sudo hostname hadoopspark@master:~$ hostnamehadoop PS:以上的修改只是临时修改,重启后就恢复原样了。 2.永久修改主机名 redhat/centos上永久修改...

2015-02-05 14:38:04 71

clover分布式任务调度系统

1、clover分布式调度介绍 clover分布式任务调度是完全使用Java技术自主开发特点如下:1、防单点故障2、job可部署多台,但任务调度时,只有一台参执行。如果一台下线,clover选择其他已在zookeeper注册job来执行。3、可管理监控程序 ,相关负责人的job不可用会发送邮件通知4、提供管理后台,可手动停止任务,设置任务执行频率、恢复策略。...

2015-02-04 16:23:15 273

Spark API编程动手实战-06-对搜狗日志文件深入实战操作

本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示:上传到服务器后,解压并查看:  查看Sogou文件内容:该文件的格式如下所示:访问时间 \t 用户ID \t 查询词 \t 该URL在返回结果中的排名 \ t用户点击...

2015-02-04 11:05:21 106

Linux下解压命令大全 解压缩 tar bz2 zip tar.gz gz

.tar解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)———————————————.gz解压1:gunzip FileName.gz解压2:gzip -d FileName.gz压缩:gzip FileName.tar.gz 和 .tgz解压:tar zxvf FileName.tar.gz压缩:ta...

2015-02-03 16:07:13 99

Spark API编程动手实战-05-spark文件操作和debug

这次 我们以指定executor-memory参数的方式来启动spark-shell:启动成功了 在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面: 从hdfs上读取文件: 在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的关系:...

2015-02-02 20:10:30 71

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKey、join、reduce、lookup等操作实践...

下面看下union的使用:使用collect操作查看一下执行结果:再看下groupByKey的使用:执行结果: join操作就是一个笛卡尔积操作的过程,如下示例: 对rdd3和rdd4执行join操作: 使用collect查看执行结果:可以看出join操作完全就是一个笛卡尔积的操作;reduce本身在RDD操作中属于...

2015-01-30 16:36:12 84

Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序

从前一篇文章中的wordcount的输出结果可以看出来结果是未经排序的,如何对spark的输出结果进行排序呢?先对reduceByKey的结果进行key,value位置置换(数字,字符),然后再进行数字排序,再将key,value位置置换后就是排序后的结果了,最终将结果存储到HDFS中   可以发现我们成功对输出结果进行排序!...

2015-01-29 13:21:34 68

Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count

操作HDFS:先要保证HDFS启动了:启动spark集群:以spark-shell运行在spark集群上: 查看下之前上传到HDFS上的”LICENSE.txt“文件:用spark读取这个文件:使用count统计该文件的行数: 我们可以看到count 耗时为0.239708s对该RDD进行cache操作并执行count使得缓存生效:...

2015-01-28 13:56:27 97

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除