Hive
Jsoooo
这个作者很懒,什么都没留下…
展开
-
Hive常用指令
在Hive目录中的命令:hive -e “select * …” 执行一条sql语句hive -f “/x/xxx.hql” 执行一个文件,例如外部脚本Hive shell中:直接使用sql语句:create database logs库会自动创在/user/用户名/warehouse/logs.db创建一个.hql文件存储建表语句://创建外...原创 2018-10-15 15:17:16 · 157 阅读 · 0 评论 -
Hive-分桶(Cluster By)
1.什么叫分桶: 类似分区,根据表中的某一字段进行哈希后, 分到不同的桶里。2.为何要分桶: 1.分区满足不了用户分隔开数据的意愿,分区有数量限制, Hive会阻止过多小分区。 2.因此有了分桶,可将数据分到固定数目的桶中。没有数据波动。 3.例子:3.向分桶表里正确填充数据:...原创 2019-01-13 21:47:51 · 2658 阅读 · 1 评论 -
Hive-模式设计(与传统关系型数据库区别)
1.存储方式有区别: 假如一个员工表要存储地址、下属等 1.MySQL:单独建立地址表和下属表,并与员工表建立关系; 2.Hive:直接全都存在员工表里,地址存储用Struct数据结构, 下属的存储用Array数据结构。2.同种数据的处理方式区别: 假设有一份数据,要分别应用到多种数据,Hive可以产生多个数据聚合...原创 2019-01-13 21:37:29 · 470 阅读 · 0 评论 -
Hive-索引
1.索引: 1.对一些字段建立索引 2.一张表的索引数据存储在另外一张表中。 3.即,索引就是一张表。2.创建索引: 1.索引类型有CompactIndexHandler、Bitmap、自定义索引等 2.WITH DEFERRED REBUILD: 重建索引,进行重建索引。 3.表分区和索引表的分区可以不同。 若索引表不指定分区,那么将会对原表所有分区建...原创 2019-01-13 11:53:18 · 125 阅读 · 0 评论 -
Hive-Order By、Sort By、Distribute By、Cluster By
1.Order By和Sort By区别:(都是排序) 1.Order By是全局的排序,在分布式中就是将所有数据全部收集到一个 Reducer上排序,并输出。 若数据量过大,将耗费漫长的时间 2.Sort By是单个Reducer上的排序,非全局, 可以提高后面全局排序的效率。2.Distribute By: 1.控制map按什么规则分发到reduce。 ...原创 2019-01-12 23:15:34 · 130 阅读 · 0 评论 -
Flume与Hive集成-配置文件
转自:https://www.cnblogs.com/linux-wangkun/p/5454224.html转载 2018-12-06 14:54:33 · 382 阅读 · 0 评论 -
JDBC连接Hive
转自:https://www.cnblogs.com/shysky77/p/6971967.html原创 2018-12-05 14:06:23 · 204 阅读 · 0 评论 -
Hive 导入数据方式
1.load data//[local]:数据文件在linux本地,则要加local;在HDFS上,就不用加//[overwrite]: 覆盖数据//[partition]:指定分区,即指定分存在哪个区目录下load data [local] inpath 'filepath'[overwrite] into table tablename[partition (partColu...原创 2018-12-05 13:44:37 · 120 阅读 · 0 评论 -
Hive Shell 表操作
创建管理表(内部表):创建方式1:create table [IF NOT EXISTS] db_hive.user(id int [COMMENT '该字段的注释'],name string,age int)[COMMENT '对该表的注释']//行之间的分隔符为空格ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '//列之间的分...原创 2018-12-01 17:27:16 · 510 阅读 · 0 评论 -
Hive shell 数据库操作
数据库:1.创建://中括号内表示可有可无。单引号里的地址为hdfs下的create database [if not exists] db_hive [location '/user/hive/warehouse/db_hive.db'];2.查看://查看数据库详细信息:desc database db_hive;desc database extended db_hive...原创 2018-12-01 15:29:07 · 524 阅读 · 1 评论 -
大数据技术图谱
转自:https://blog.csdn.net/stpeace/article/details/79232656转载 2018-11-20 10:50:47 · 628 阅读 · 0 评论 -
大数据相关-笔/面试题
Hadoop面试题:https://blog.csdn.net/kingmax54212008/article/details/51257067?utm_source=blogxgwz2Hadoop笔试题:https://blog.csdn.net/zhongqi2513/article/details/78349083Spark面试题:https://blog.csdn.net/wei...转载 2018-10-20 14:04:32 · 241 阅读 · 0 评论 -
Hive 内部表外部表
内部表&外部表未被external修饰的是内部表(managed table),被external修饰的为外部表(external table);区别:1.内部表数据由Hive自身管理,外部表数据由HDFS管理;2.内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定;3....转载 2018-10-16 14:58:33 · 190 阅读 · 0 评论 -
Hive 使用 -e执行alter时奇葩错误
使用 -e 执行报错:hive -e “alter table logs.mybigdatalogs add partition(year=2018,month=10,day=15)”解决方法:使用hive shell先使用数据库logsuse logs2.再使用alter命令(这次不用带库名)alter table MyBigdataLogs add partition(ye...原创 2018-10-15 15:43:34 · 924 阅读 · 0 评论 -
Hive-UDF、UDAF、UDTF
1.概念: UDF: 用户定义函数 UDAF:用户定义聚合函数 UDTF:用户定义表生成函数 2.基本原理: 1.UDF: 针对一行数据,返回一个值 2.UDAF:针对多行数据,返回一个值,类似sum()、avg() 3.UDTF:一行数据可以化为多行输出。 3.UDF实现 很简单,继承UDF类就可以 /** * @funct...原创 2019-01-14 17:39:29 · 278 阅读 · 0 评论