Hive
象在舞
谁说大象不能跳舞!
展开
-
【pyhive】本地使用pyhive连接hive数据库踩的坑
OK,本文来看看本地在PyCharm中使用pyhive连接hive数据库时踩过的坑吧,先看看一眼小编的测试代码~ 首先是封装了一个连接hive获取数据的类,因为是测试,所以写的简单了些,如下:'''@File : sql.py@Author: xzw@Date : 2020/6/14@Desc : 封装类'''from pyhive import hiveimport pandas as pdclass TestHive(object): ...原创 2020-06-15 14:23:23 · 4524 阅读 · 0 评论 -
如何在Hive、MySQL、Oracle中分别添加自增序号
最近公司业务涉及到了在相应库中添加自增序号这种操作,闲暇之余,整理如下,仅供参考~一、Hive 1、首先在Hive中建立一个测试表create table xzw(id int, name string) clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'=...原创 2020-04-29 15:14:25 · 2330 阅读 · 1 评论 -
CDH6.3.1中Hive开启事务机制
今天在工作中需要在Hive中建立事务表以支持update和delete等操作,这就需要开启Hive的事务机制。在CDH的监控界面,找到Hive的配置,具体操作,请戳这里~。在相关栏目下进行如下设置:服务端:hive-site.xml 的 Hive 服务高级配置代码段(安全阀)hive.txn.manager = org.apache.hadoop.hive.ql.lockm...原创 2020-04-25 21:21:10 · 1479 阅读 · 1 评论 -
CDH6.3.1监控界面Hive修改参数
草稿原创 2020-04-25 21:00:29 · 3315 阅读 · 2 评论 -
Hive切换计算引擎
Hive通过配置hive.execution.engine参数来切换底层的计算引擎,具体为: (1)底层为MapReduce计算引擎set hive.execution.engine=mr;原创 2020-04-21 08:33:10 · 1665 阅读 · 0 评论 -
Hive通过-f调用sql文件并进行传参
有时候我们需要从Hive中获取需要的数据进行代码的编写,这就需要我们将查询到的语句输出到文档中,我们可以使用-e这个参数,例如:hive -e 'select * from area where code=202020' >> /root/files/a.csv 但是有时候sql语句会异常复杂或者语句较多,这个时候我们可以使用-f参数,将所有的sql...原创 2019-01-10 16:39:29 · 9509 阅读 · 0 评论 -
truncate——删除hive表中的数据
在某些情况下,我们需要在不删除表的情况下,删除表中的数据。像Oracle、MySQL数据库,可以使用如下语言删除表中的数据:DELETE FROM tableName; 在Hive中,上面的语句就不那么好用了,我们可以使用truncate来删除相关表中的数据,命令如下:truncate table tableName; 注意:trunc...原创 2018-07-25 13:21:34 · 16900 阅读 · 0 评论 -
Hive中常见的错误
小编用的Cloudera Manager搭建的集群,因为服务器升级,集群停掉之后再启动的时候遇到了各种问题。Hive是常用的大数据组件,在此小编特意整理了Hive在使用过程中常见的错误如下,以供大家参考~ 由于造成错误的原因是多方面的,下面列举的这些可能解决过小编遇到过的错误,但不一定对读者遇到的错误有效,特此声明。1、执行/usr/bin/hive命令进入hive时遇到...原创 2018-07-01 15:08:22 · 1884 阅读 · 0 评论 -
Hive中获取当前时间、计算时间差
1、Hive中获取当前的时间:select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss')2、Hive中计算时间差:select datediff('2018-06-04','2018-06-05');原创 2018-06-05 13:33:22 · 23029 阅读 · 0 评论 -
Hive与Oracle之间利用Sqoop进行数据的导入导出
近期在工作中遇到了Hive与Oracle之间数据导入导出的问题,故整理如下,以供需要者参考。一、Oracle数据导入到Hive中/usr/bin/sqoop import \--connect jdbc:oracle:thin:@72.*.*.185:1521:dbcxj2 \--username name --password pw \--table tableName \-...原创 2018-05-07 20:26:29 · 1529 阅读 · 10 评论 -
Hive中实现差集操作
今天在用Hive处理问题的时候碰到了差集操作,故整理如下,仅供参考~1)新建两个测试表a,b。a中的数据为1,2,3,4,5。b中的数据为1,2,3。2)left semi join解决的是IN/EXISTS的问题select a.id from a left semi join b on (a.id = b.id);结果是:1,2,33)left outer join解决的是a差b的问题sele...原创 2018-04-10 17:07:47 · 3369 阅读 · 0 评论 -
Linux下安装MySQL
这篇文章主要讲解Linux下如何安装MySQL。一、首先卸载自带的MySQL数据库查询:# rpm -qa | grep mysql卸载:# rpm -e mysql-libs-5.1.71-1.el6.x86_64 --nodeps这里我已经卸载了。二、通过yum安装MySQL# yum install -y mysql-server mysql mysql-devel三、启动MySQL...原创 2018-03-11 20:56:18 · 354 阅读 · 0 评论 -
Hive中的explode()函数和collect_set()函数
最近在Hive中查询测试数据用到explode()函数比较多,所以今天整理一下,方便以后查阅。1.substr()函数substr()是字符串截取函数,其语法为: substr(string A, int start, int len),返回值为 string类型。说明:返回字符串A从start位置开始,长度为len的字符串。这里需要注意的是初始位置是从1开始。2.explode()函...原创 2017-12-01 09:49:56 · 27359 阅读 · 0 评论 -
Hive中的四种排序
一、Order byorder by会对输入的数据做全局排序,因此只有一个reducer,多个reducer无法保证全局有序。只有一个reducer的弊端在于当输入的数据量较大时,需要较长的计算时间。order by跟数据库中的order by功能一致,按照某一项或几项排序输出。它与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下原创 2017-09-01 15:20:01 · 6310 阅读 · 0 评论 -
Hive函数大全
一、关系运算:1. 等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive> select 1 from lxw_dual where 1=1;12. 不等值比较: 语法: A 操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式转载 2017-09-01 12:50:46 · 612 阅读 · 0 评论 -
Hive的安装模式、体系架构及优点
一、Hive的安装模式Hive有三种安装模式,分别是:嵌入模式、本地模式和远程模式。1.1 嵌入模式(1)元数据信息被保存在自带的Deybe数据中(2)只允许创建一个连接(3)多用于Demo1.2 本地模式(1)元数据信息被保存在MySQL数据库(2)MySQL数据库与Hive运行在同一台物理机器上(3)多用于开发和测试1.3原创 2017-09-01 10:56:24 · 985 阅读 · 0 评论 -
Hive数据仓库与数据库的异同
由于Hive采用了SQL的查询语言HQL,因此很容易将hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述Hive和数据库的差异。数据库可以用在Online的应用中,但是Hive是为数据仓库而设计的,清楚这一点,有助于从应用角度理解Hive的特性。1.查询语言。由于 SQL 被广泛的应用在数据仓转载 2017-09-01 09:19:40 · 997 阅读 · 0 评论 -
HBase与Hive整合的必要性
Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统,Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。Hive可以理解为一个客户端工具,将我们的sql操作转换为相应的MapReduce jobs,然后在Hadoop上面运行。 HBase全称为Hadoop Database,即HBase是Hadoop的数原创 2017-08-17 20:01:03 · 2149 阅读 · 0 评论