hive
文章平均质量分 67
三劫散仙
唯有学习,可以解忧
展开
-
spark-3.0.1和hive-1.1.0集成的问题
主jar里面包含了jetty或者spring boot相关的web依赖信息,可能会导致和 hive-1.1.0 自带的jetty冲突。链接: https://pan.baidu.com/s/1ThAjKRznK2CUDaiXYPzKXg 提取码: b0b0。解决办法:单独下载 geronimo-jaspi-2.0.0.jar 包,放入 spark 根目录的 jars 目录里面。原创 2023-04-27 15:47:57 · 313 阅读 · 1 评论 -
Spark与hdfs delegation token过期的排查思路总结
hadoop delegation token的问题相对比较混乱和复杂,简单说下这东西的出现背景,最早的hadoop的因没有的完善的安全机制(安全机制主要包括:认证 + 鉴权,hadoop这里主要是身份认证机制没有),所以导致操作风险比较大,你可以理解只要获取了一台装有hadoop client的机器,就可以任意操作HDFS系统了,深究原因是因为hadoop身份认证机制太薄弱原创 2022-11-09 23:34:25 · 2336 阅读 · 0 评论 -
Apache Hive2.1.0安装笔记
Hive2.x已经足够稳定了,前面也安装过hive0.x和Hive1.x的版本,今天我们来看下hive2.x如何安装使用。环境:centos7.1Hadoop2.7.3JDK8Hive2.1.01,首先需要下载hive最新的稳定版本的包,并保证的你Hadoop集群已经是能够正常运行的http://ftp.kddilabs.jp/inf...2016-11-16 18:51:38 · 153 阅读 · 0 评论 -
Hive2.1.0集成Tez
[img]http://note.youdao.com/yws/public/resource/344cd03f173c19ea03136b36d01a5f91/xmlnote/DA0FB4CF4175453FB7973BC09572A370/25149[/img]#### Tez是什么?Tez是Hontonworks开源的支持DAG作业的计算框架,它可以将多个有依赖的作业转换为一...2016-11-21 19:39:06 · 245 阅读 · 0 评论 -
spark sql on hive笔记一
Spark sql on Hive非常方便,通过共享读取hive的元数据,我们可以直接使用spark sql访问hive的库和表,做更快的OLAP的分析。spark 如果想直接能集成sql,最好自己编译下源码:切换scala的版本为新版本[code="java"]dev/change-scala-version.sh 2.11[/code]编译支持hive[code="...2016-12-09 20:42:23 · 202 阅读 · 0 评论 -
Bug死磕之hue集成的oozie+pig出现资源任务死锁问题
[size=medium]这两天,打算给现有的Apache Hadoop2.7.1的集群装个hue,方便业务人员使用hue的可视化界面,来做一些数据分析任务,这过程遇到不少问题,不过大部分最终都一一击破,收获经验若干,折腾的过程,其实也是一个学习的过程,一个历练的过程,我相信优秀的人,都是经历过无数磨难成就的,并且有着坚持不放弃的心态,迎接各种挑战,如果你总是遇到困难就放弃,那么你永远也不...2016-01-14 15:52:55 · 298 阅读 · 0 评论 -
Apache Tez0.7编译笔记
[img]http://dl2.iteye.com/upload/attachment/0114/5711/86f2acad-6ad7-3822-b59f-8c24335265f7.png[/img][size=medium]目前最新的Tez版本是0.8,但还不是稳定版,所以大家还是先下载0.7用吧下载地址: wget http://archive.apache.org/dis...2016-01-15 16:33:24 · 176 阅读 · 0 评论 -
Hive集成Tez让大象飞起来
[img]http://dl2.iteye.com/upload/attachment/0114/5700/de4b9062-7d61-3ea5-995d-5ae35deb61c0.jpg[/img][size=medium]基础环境Apache Hadoop2.7.1Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.1...2016-01-15 16:52:41 · 432 阅读 · 0 评论 -
Spark SQL+Hive历险记
[size=medium]基础依赖环境Apache Hadoop2.7.1Apache Spark1.6.0Apache Hive1.2.1Apache Hbase0.98.12(1)提前安装好scala的版本,我这里是2.11.7(2)下载spark-1.6.0源码,解压进入根目录编译(3)dev/change-scala-version.sh 2...2016-01-21 11:40:00 · 184 阅读 · 0 评论 -
Hive使用ORC格式存储离线表
[size=medium]在大数据时代,列式存储变得越来越流行了,当然并不是说行式存储就没落了,只是针对的场景不同,行式存储的代表就是我们大多数时候经常用的数据库,比较适合数据量小,字段数目少,查询性能高的场景,列式存储主要针对大多数互联网公司中的业务字段数目多,数据量规模大,离线分析多的场景,这时候避免大量无用IO扫描,往往提高离线数据分析的性能,而且列式存储具有更高的压缩比,能够节省一定的...2016-02-14 18:09:59 · 614 阅读 · 0 评论 -
如何使用Hive集成Solr?
[size=medium](一)Hive+Solr简介Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等。 Solr作为高性能的搜索服务器,能够提供快速,强大的全文检索功能。(二)为什么需要hive集成solr? (1)简单: 如果单纯的使用Hadoop编...2016-03-17 15:05:31 · 242 阅读 · 0 评论 -
理解数据仓库中星型模型和雪花模型
在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。(一)星型模型图示如下: [img]http://my.csdn.net/uploads/201208/21/1345516634_6388.JPG[/img]星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维...2017-07-06 17:29:49 · 1893 阅读 · 0 评论 -
Hue+Hive临时目录权限不够解决方案
[size=medium]安装[url=http://qindongliang.iteye.com/blog/2212619]Hue[/url]后,可能会分配多个账户给一些业务部门操作hive,虽然可以正常写SQL提交任务,但是由于不同账户在生成MR任务时写入的临时文件,导致临时目录权限改变,假如下次有需要重启hiveserver2时,会报下面的一个异常:[/size][code="jav...2016-06-14 10:40:39 · 1087 阅读 · 0 评论 -
hive自定义udf实现md5功能
Hive自定义UDF实现md5算法Hive发展至今,自身已经非常成熟了,但是为了灵活性,还是提供了各种各样的 插件的方式,只有你想不到的,没有做不到的,主流的开源框架都有类似的机制,包括Hadoop,Solr,Hbase,ElasticSearch,这也是面向抽象编程的好处,非常容易扩展。最近在使用hive1.2.0的版本,因为要给有一列的数据生成md5签名,便于查重数据使用,看了...2016-05-25 11:54:07 · 255 阅读 · 0 评论 -
hadoop2.2生态系统快速安装脚本
[b][color=green][size=large]对于使用hadoop进行开发的朋友们,可能要自己搭建一套hadoop的运行环境,如果不是经常变动的还好,如果,经常搭建而且还是多台机器,那么我们一个个的安装,就显得有点捉襟见肘了,这也是这个脚本诞生的目的,主要帮助我们在快速搭建hadoop集群,以及安装底层的配置依赖环境如JDK,Maven,Ant等,在安装hadoop前,还有一些关于lin...2014-09-23 15:08:55 · 124 阅读 · 0 评论 -
hive自定义udf实现md5功能
Hive自定义UDF实现md5算法Hive发展至今,自身已经非常成熟了,但是为了灵活性,还是提供了各种各样的 插件的方式,只有你想不到的,没有做不到的,主流的开源框架都有类似的机制,包括Hadoop,Solr,Hbase,ElasticSearch,这也是面向抽象编程的好处,非常容易扩展。最近在使用hive1.2.0的版本,因为要给有一列的数据生成md5签名,便于查重数据使用,看了下hive的官网原创 2016-05-24 16:35:23 · 11529 阅读 · 0 评论 -
开源大数据索引项目hive-solr
github地址:https://github.com/qindongliang/hive-solr 欢迎大家fork和使用 关于这个项目的介绍,请参考散仙前面的文章: http://qindongliang.iteye.com/blog/2283862 最新更新: (1)添加了对solrcloud集群的支持 (2)修复了在反序列时对于hive中null列和空值的处原创 2016-05-06 16:24:16 · 1936 阅读 · 0 评论 -
Apache Hive2.1.0安装笔记
Hive2.x已经足够稳定了,前面也安装过hive0.x和Hive1.x的版本,今天我们来看下hive2.x如何安装使用。环境:centos7.1Hadoop2.7.3JDK8Hive2.1.01,首先需要下载hive最新的稳定版本的包,并保证的你Hadoop集群已经是能够正常运行的http://ftp.kddilabs.jp/infosys原创 2016-11-16 18:50:41 · 2303 阅读 · 1 评论 -
Hive2.1.0集成Tez
Tez是什么?Tez是Hontonworks开源的支持DAG作业的计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升MapReduce作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序如何编译Tez最新的版本是0.8.4,本文就记录下Tez的编译过程,之前的Tez版本都是源码包,最新的版本虽然提供了编译后的ta原创 2016-11-21 19:39:10 · 3910 阅读 · 0 评论 -
理解数据仓库中星型模型和雪花模型
在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。(一)星型模型图示如下:星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hive时,经常会看到一些大宽表的原因原创 2017-07-06 18:32:27 · 38113 阅读 · 4 评论 -
Hive的入门安装
[b][color=green][size=large]hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive最早由fac...2013-12-09 15:44:00 · 90 阅读 · 0 评论 -
Hadoop2.2.0+Hive0.13+MySQL5.1集成安装
[b][color=olive][size=large]本次散仙安装的Hive是Hive最新版本中的稳定版本,是基于Hadoop2.2.0,以前有写过,如何在hadoop1.x下面安装Hive0.8,本次Hive的版本是Hive0.13,可以直接在Hive官网上下载二进制包,无须进行源码编译。Hive需要依赖底层的Hadoop环境,所以在安装Hive前,请确保你的hadoop集群环境已经可以正常工...2014-07-29 20:33:15 · 354 阅读 · 0 评论 -
Hive0.13安装问题总结
[b][color=olive][size=large]继上篇文章Hive安装之后,本篇散仙就来总结下安装Hive过程中,出现的一些问题,以及解决方法。问题列表如下:[table]|序号|问题||1|为何我配置的是MySQL存储hive元数据,但总是存储到它自带的Derby数据库里?||2|为何我的Hive总是以Local模式启动,而不能将作业提交到Hadoop集群上?|...2014-07-29 21:28:51 · 178 阅读 · 0 评论 -
Eclipse+JDBC远程操作Hive0.13
[b][color=olive][size=large]在前几篇的博客里,散仙已经写了如何在Liunx上安装Hive以及如何与Hadoop集成和将Hive的元数据存储到MySQL里,今天散仙就来看下,如何在Eclipse里通过JDBC的方式操作Hive.我们都知道Hive是一个类SQL的框架,支持HSQL语法操作Hive,而Hive内部,会转成一个个MapReduce作业来完成具体的数据统...2014-08-04 20:45:15 · 179 阅读 · 0 评论 -
Hadoop2.2.0+Hive0.13+Hbase0.96.2集成
[b][color=green][size=large]本篇,散仙主要讲的是使用Hive如何和Hbase集成,Hbase和Hive的底层存储都在HDFS上,都是hadoop生态系统中的重要一员,所以他们之间有着很亲密的联系,可以相互转换与操作。hadoop,hbase和hive的搭建就不重复说了,不会的朋友,可以看散仙前面的博客,下面直接进入重点,关于hive集成hbase这一块,网上...2014-08-06 20:49:48 · 142 阅读 · 0 评论 -
开源大数据索引项目hive-solr
[size=medium]github地址:[url]https://github.com/qindongliang/hive-solr[/url]欢迎大家fork和使用关于这个项目的介绍,请参考散仙前面的文章:[url]http://qindongliang.iteye.com/blog/2283862[/url]最新更新:(1)添加了对solrcloud集群的支...2016-05-06 16:15:38 · 203 阅读 · 0 评论 -
如何使用Hive集成Solr?
(一)Hive+Solr简介 Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等。 Solr作为高性能的搜索服务器,能够提供快速,强大的全文检索功能。 (二)为什么需要hive集成solr? 有时候,我们需要将hive的分析完的结果,存储到solr里面进行全文原创 2016-03-17 15:14:25 · 2087 阅读 · 0 评论