![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
JAVA日常笔记精选
分享日常工作中常见的问题
展开
-
hive整合hbase
wiki:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration 1.在hive的配置文件中添加hbase的zk地址 2.确保hive/lib下存在hive-hbase-handler-x.y.z.jar 3.创建hive表和Hbase表的映射关系 内部表和外部表的区别: 内部表:当hbase中...原创 2019-12-18 10:26:51 · 109 阅读 · 0 评论 -
hive 分桶
CREATE [EXTERNAL] TABLE <table_name> (<col_name> <data_type> [, <col_name> <data_type> ...])] [PARTITIONED BY ...] CLUSTERED BY (<col_name>) ...原创 2019-12-17 13:42:01 · 340 阅读 · 0 评论 -
hive 排序
order by 全排序 order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 set hive.mapred.mode=nonstrict; (default value / 默认值) set hive.mapred.mode=strict; order by 和数据...原创 2019-12-17 13:33:23 · 81 阅读 · 0 评论 -
执行hive命令报错 SessionHiveMetaStoreClient
1.执行Hive命令的时候报错 FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaSto...原创 2019-12-13 14:57:29 · 2130 阅读 · 0 评论 -
hive 连接查询优化
1.每个join都会启动一个mapreduce 如果连接字段是同一个字段,则会进入同一个reduce 2.hive会默认最后一个表为数据量最大的表,所以会将前面的表进行缓存 所以进行连接查询的时候,将表从小到大连接 3.如果查询中不想将大表放到最后,可以使用查询暗示,指定哪张表示最大的 select /* +streamtable(c) */ c.id,c.name fr...原创 2019-12-13 11:42:48 · 264 阅读 · 0 评论 -
hive 如何避免产生mapreduce
不是用mr查询的Job就是本地Job 避免产生MR的三种方式: 1.全表扫描,不加where子句 2.where子句只有分区字段 3.设置hive.exec.mode.local.auto=true hive会尽量使用本地模式查询 其余的所有查询都会转换成mr ...原创 2019-12-13 11:39:32 · 355 阅读 · 0 评论 -
hive分区表常用操作,创建分区表,动态分区
1.加载数据到表中 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] 2.查看表信息 //只有简单的信息 desc database.tablename //格式化后的详细信息 desc formatt...原创 2019-12-12 14:19:19 · 931 阅读 · 0 评论 -
hive 客户端编程 使用jdbc操作Hive表
1.启动hiveserver2 2.代码实现 import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLException; import org.junit.After...原创 2019-12-12 14:06:52 · 287 阅读 · 0 评论 -
hive 创建表
建表有三种方式: 1.直接建表法 create table table_name(col_name data_type); 也可以自己指定表结构参数,指定字段终止符和行终止符和存储在HDFS上的文件格式 hive> CREATE TABLE IF NOT EXISTS employee ( eid int, name String, > sala...原创 2019-12-11 16:48:38 · 593 阅读 · 0 评论 -
hive 客户端编程 配置hiveserver2
1.eclipse创建项目 2.引入hive jar包 将hive/lib下的所有jar包引入 3.修改Hive-site.xml配置 使用OS操作系统的认证方式 [hive-site.xml] <!-- 调度Yarn的时候是否以Hive用户身份,false已Hive默认用户身份,true以访问用户 --> <!-- 为true时报错 -->...原创 2019-12-11 16:39:01 · 319 阅读 · 0 评论 -
hive 配置 mysql 数据库
1.安装mysql 2.登录mysql,创建数据库 create database myhive; 3.修改hive/conf/hive-site.xml文件,配置Mysql驱动和连接信息 <property> <name>javax.jdo.option.ConnectionDriverName</name> <value...原创 2019-12-11 16:35:08 · 254 阅读 · 0 评论 -
hive 安装
安装: ---------------------------------------------- 1.安装JDK和HADOOP 2.官网下载稳定版 3.解压到/soft/下 tar -xzvf apache-hive.tar /soft/ 4.为了方便管理,建立伪链接 ln -s hive.xxx hive 5.配置环境变量 #编辑环境变量 v...原创 2019-12-11 13:47:19 · 66 阅读 · 0 评论 -
hive概念及特点
1.数据仓库软件 2.存储,重在分析,延迟高 3.使用SQL来读,写,管理驻留在分布式存储系统大型数据集,可以使用命令行和Driver链接 到Hive 4.运行在hadood之上,用来汇集查询数据 OLAP: online analyze process 不是: 关系型数据库 OLTP 不适合实时查询和底层更新操作 特点: ...原创 2019-12-11 13:39:42 · 607 阅读 · 0 评论