![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
liyaohhh
这个作者很懒,什么都没留下…
展开
-
hive的虚拟列函数
hive的虚拟列 hive 0.8版本之后提供了两个函数,其实也没什么用处,可以起到辅助函数的作用。INPUT__FILE__NAME:函数的作用就是显示每一个map任务所对应输文件的目录以及文件名。BLOCK__OFFSET__INSIDE__FILE:当前map任务处理的数据所对应文件的偏移量。select INPUT__FILE__NAME,原创 2016-02-14 15:46:37 · 2246 阅读 · 0 评论 -
spark-shell启动的问题解决
spark-shell启动的问题解决 今儿在启动spark-shell的时候模型奇妙的出现如下几个问题 1)端口占用:4040端口被占用,我们知道这里的4040是worker的端口使用,但是被占用啦,如下图所示: 使用如下命令:netstat -ap |grep 4040tcp6 0 0 [::]:4040原创 2016-03-26 12:05:22 · 7578 阅读 · 0 评论 -
hive入门学习:hive的调优(二)
hive入门学习:hive的调优(二) 并行执行: hive会把查询转化成为一个或者多个阶段,这样的阶段可以是mapreduce阶段,抽样阶段,合并阶段,limit阶段等等。默认情况下hive一次只会执行一个阶段,不过某些特定的阶段可能会包含众多的阶段,而这些阶段并非互相依赖,可以并行执行,这样就可以大幅度的缩短job的执行时间。如下配置来设定原创 2016-02-28 21:02:57 · 663 阅读 · 0 评论 -
开源中国的maven镜像
开源中国的maven镜像 有时候用maven必须要用得到maven中国,这里只是做一个笔记,下次用好找一些: nexus-osc * Nexus osc http://maven.oschina.net/content/groups/public/原创 2016-03-12 20:59:56 · 732 阅读 · 0 评论 -
spark源码学习(一):sparkContext的初始化分析(一)
spark源码学习:sparkContext的初始化分析 spark可以运行在本地模式local下,可以运行在yarn和standalone模式下,但是本地程序是通过什么渠道和这些集群交互的呢?那就是sparkContext,他在spark生态系统中的作用不言而喻,绝对是最重要的,整体架构如图所示: 这里我们简单的来剖析一下,sparkContext在初始化原创 2016-02-25 12:49:32 · 4671 阅读 · 0 评论 -
hadoop源码编译:支持snappy压缩
hadoop源码编译:支持snappy压缩 在大数据的情况下,数据量都是特别的大,有时候呢,我们想把数据进行压缩之后在进行处理,这样呢可以大幅度的减少磁盘的IO而且还可以减少网络传输的压力,具体来讲对于本地的数据任务来讲,例如在map任务下,适当的对数据进行压缩,可以减少磁盘的IO,在涉及到reduce任务的时候呢,reduce就会从远程的磁盘进行数据拷贝,那么压缩数据就会减缓原创 2016-02-17 16:36:58 · 4806 阅读 · 0 评论 -
hive启动报错:hive1.1.1和0.13的jline的差别
hive启动报错:hive1.1.1和0.13的jline的差别 今天试图把hive的底层依赖从mr变成spark的时候,发现0.13.1在hive的后台选项里面没有spark,也就是不支持spark作为后台,所以就更换版本成为1.1.1版本的hive,这个版本是有spark支持的。但是,在启动了hadoop 2.6.1之后,继而启动bin/hi原创 2016-02-20 12:16:37 · 1148 阅读 · 0 评论 -
hive入门学习:join的三种优化方式
hive入门学习:join的三种优化方式 hive在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接,例如在进行两个table的join的时候,利用MR的思想会消耗大量的内存,良妃磁盘的IO,大幅度的影响性能,因为shuffle真的好令人担心啊,总之,就是各种问题都是由他产生的。下面介绍一下涉及hive在join的时候的优化方式。原创 2016-02-19 15:42:54 · 25632 阅读 · 1 评论 -
hive入门学习:explain执行计划的理解
hive入门学习:explain执行计划的理解 我们都知道,hive在执行的时候会把所对应的SQL语句都会转换成mapreduce代码执行,但是具体的MR执行信息我们怎样才能看出来呢?这里就用到了explain的关键字,他可详细的表示出在执行所对应的语句所对应的MR代码。语法格式如下。extended关键字可以更加详细的列举出代码的执行过程。EX原创 2016-02-19 13:01:06 · 31559 阅读 · 16 评论 -
hive入门们学习:orcFile和parquet存储格式简介
hive入门们学习:orcFile和parquet存储格式简介 hive的的表格的存储格式默认情况下是textfile格式的,textfile格式的数据是按照行存储数据。但是在这里介绍的两种企业最常用的数据存储格式orcfile和parquet存储格式,这两种存储格式是根据我们的业务需求--经常需要按照对一列的数据进行存取和处理,例如,机器学习中我们抽样原创 2016-02-17 09:35:00 · 6870 阅读 · 1 评论 -
hive入门学习:UDF开发
hive入门学习:UDF开发 hive中提供了很多的内置函数,可以通过show functions来查看提供了哪些函数,可以desc function extended 函数,来查看所对应的函数具体如何使用。但是有时候难免会有一些功能无法实现,就需要我们自己来实现啦,这个时候就用到了UDF开发。 首先,开发UDF就是实现一个固定的接口,利通hadoop原创 2016-02-16 20:54:32 · 2130 阅读 · 0 评论 -
hive学习笔记:FetchTask
hive学习笔记:FetchTask 我们在执行hive代码的时候,一条简单的命令大部分都会转换成为mr代码在后台执行,但是有时候我们仅仅只是想获取一部分数据而已,仅仅是获取数据,还需要转化成为mr去执行吗?那个也太浪费时间和内存啦,所以有一个hive的配置如下图所示: 我们会发现这个属性所对应着两种模式,minimal和more。 在原创 2016-02-16 16:35:46 · 5343 阅读 · 0 评论 -
hadoop启动jps命令不存在遇到的问题
hadoop启动jps命令不存在遇到的问题 今天好好的启动jps之后发现出现如下错误 The program 'jps' can be found in the following packages: * openjdk-6-jdk * openjdk-7-jdk原创 2016-03-01 22:41:15 · 9530 阅读 · 1 评论 -
hive相关错误:java.lang.RuntimeException: Error in configuring object
hive相关错误:java.lang.RuntimeException: Error in configuring object 今天在hive中运行了select count(1) from track_log where date='20150828' and hour='19' ;这条命令,却出现了如下的错误。 感觉很难受啊,上面说配置的问题产生原创 2016-03-27 20:41:41 · 5636 阅读 · 0 评论