大数据-Hive
autumnLemon
努力、奋斗
展开
-
Hive 面试以及知识点
1. hive表关联查询,如何解决数据倾斜的问题? 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL语句本身就有数据倾斜; ...转载 2018-08-06 10:56:30 · 234 阅读 · 0 评论 -
hive-2.3.3的安装详解
1.安装前的准备: 首先需要搭建好hadoop集群并启动(需要启动hdfs和yarn) mysql启动正常2.hive的安装 方式一(不推荐):内嵌 Derby 版本 1、 上传安装包 apache-hive-2.3.2-bin.tar.gz 2、 解压安装包 tar -zxvf apache-hive-2.3.2-bin.tar.gz -C ...转载 2018-08-01 23:19:35 · 341 阅读 · 0 评论 -
hive的HiveServer2/beeline配置及使用
第一:修改 hadoop 集群的 hdfs-site.xml 配置文件:加入一条配置信息,表示启用 webhdfscd /home/hadoop/apps/hadoop-2.7.5/etc/hadoop<property> <name>dfs.webhdfs.enabled</name> <value>true<...转载 2018-08-01 23:21:30 · 2149 阅读 · 0 评论 -
hive的基本使用及HQL
=====================================================================1、 创建库:create database if not exists mydb; 创建库的时候带注释 ...原创 2018-08-01 23:44:14 · 1311 阅读 · 0 评论 -
Hive的分区表和分桶表的区别
1,Hive分区。 是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。...转载 2018-08-01 23:45:05 · 1206 阅读 · 0 评论 -
hive整合hbase
1.首先把hive下的指定jar复制到hbase的lib下scp $HIVE_HOME/lib/hive-hbase-handler-1.1.0-cdh5.4.0.jar $HBASE_HOME/lib/2. 把hbase下的所有jar复制到hive的lib下scp $HBASE_HOME/lib/*.jar $HIVE_HOME/lib/3.整合代码在hive的客户端中运行下...转载 2018-08-01 23:45:54 · 153 阅读 · 0 评论 -
hivesql和mysql常见问题
1) EXISTS ()括号里只要有返回值就会执行 EXISTS 之前的语句2) select 1 的问题3) in查询相当于多个or条件的叠加,这个比较好理解,比如下面的查询select * from user where userId in (1, 2, 3);等效于select * from user where userId = 1 or userId = 2 or...转载 2018-08-02 08:37:00 · 314 阅读 · 0 评论