![](https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hive
hive操作
数据孤岛
这个作者很懒,什么都没留下…
展开
-
broker load 数据导入
broker load 数据迁移原创 2022-06-11 14:42:03 · 434 阅读 · 0 评论 -
hive分区表增加字段
hive分区表增加列新增的列会以null展示插入数据后还是显示null如果放到第二天的分区,就能查出数据原创 2021-06-05 15:08:20 · 4278 阅读 · 0 评论 -
hive常用函数大全超详细整理
文章目录1 关系运算1.1 1、等值比较: =1.2 2、不等值比较:1.3 3、小于比较: <1.4 4、小于等于比较: <=1.5 5、大于比较: >1.6 6、大于等于比较: >=1.7 7、空值判断: IS NULL1.8 8、非空判断: IS NOT NULL1.9 9、LIKE比较: LIKE1.10 10、JAVA的LIKE操作: RLIKE1.11 11、REGEXP操作: REGEXP2 数学运算:2.1 1、加法操作: +2.2 2、原创 2020-08-29 20:29:27 · 1725 阅读 · 0 评论 -
Hive——UDF、UDTF、UDAF
UDF(User-Defined-Function)一进一出创建UDF的一般步骤(1)继承 org.apache.hadoop.hive.ql.UDF(2)需要实现 evaluate 函数;evaluate 函数支持重载;(3)添加 jaradd jar linux_jar_path(4)创建 functioncreate [temporary] function [dbname.]function_name AS class_name;(5)在 hive 的命令行窗口删除函数Drop [原创 2020-10-24 23:35:33 · 399 阅读 · 0 评论 -
Hive——窗口函数的总结
Hive窗口函数over():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化;放在over()里面的:unbounded preceding表示从前面的起点;n preceding:往前 n 行数据;current row:当前行;n following:往后 n 行数据;unbounded following表示到后面的终点;用法:(…rows between xxx and yyy)xxx表示前面的要填的行 yyy表示后面的要填的行,不能反过来放在over原创 2020-10-24 14:58:15 · 247 阅读 · 0 评论 -
Hive——行转列、列转行的理解
创建表,导入数据create table person_info(name string,age int,constellation string,blood_type string)row format delimited fields terminated by " ";load data local inpath "/root/test.txt" into table person_info;test.txt 据信息孙悟空 20 白羊座 A大海 19 射手座 A宋宋 36 白原创 2020-10-23 10:37:28 · 799 阅读 · 0 评论 -
Hive——分桶的理解
分区针对的是数据的存储路径;分桶针对的是数据文件。分桶创建(1)创建分桶表create table stu_buck(id int, name string)clustered by(id) into 4 bucketsrow format delimited fields terminated by '\t';(2)设置分桶属性打开分桶机制 set hive.enforce.bucketing=true;让reducer的个数与定义分桶表时设置的分桶数相同 set mapreduc原创 2020-10-21 23:56:00 · 491 阅读 · 0 评论 -
Hive——分区的详细图文介绍,绝对看懂!
分区Hive中没有索引,如果要查询某个数据就需要暴力扫描全表,这样效率极低,所以hive引入分区概念,把相同条件的数据放在不同的文件夹,查找时通过where语句可以到指定的分区,快速查找到需要的数据,效率也就提高了创建分区例子我创建一个dept_partition分区表,其实就是多了一列 partitioned by (month string),这样把2020-10月产生的数据dept.txt的信息放到这个分区中,以后查找2020-10月的信息就直接来这个分区找,而不需要全表扫描了。creat原创 2020-10-20 10:33:00 · 1150 阅读 · 0 评论 -
Hive——数据库、表的增删改查 (每一步详细代码加截图,傻瓜式教程)
我们安装完Hive,配置好hive-site.xml文件,其中我把hive在hdfs路径设置为hive110/warehouse启动hadoophdfs dfs -chmod -R 777 /hive110给所有组加最高权限,方便以后操作登录hive,这里我直接使用本地登录,也就不适用hiveserver2了DDL创建数据库创建数据库,数据库在 HDFS 上的默认存储路径是/hive110/warehouse/*.db。(也就是自己在hive-site.xml里的设置)create dat原创 2020-10-19 22:25:49 · 5532 阅读 · 0 评论 -
order by、sort by、distribute by sort by 、cluster by、group by order by、partition by order by 解析
order by:全局排序order by 会对数据进行一次全局排序,所以说,只要hive的sql中指定了order by,那么所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。order by 只在一个reduce中进行,所以数据量特别大的时候效率非常低。建议在小的数据集中使用order by进行排序可以通过设置hive.mapred.mode参数控制执行方式:若选择strict,则order by 需要指定limit(若有分原创 2020-09-29 18:05:48 · 954 阅读 · 0 评论 -
group by和partition by区别小结
group by是分组函数,partition by是分析函数(然后像sum()等是聚合函数);在执行顺序上,对于group by而言from > where > group by > having > order by对于partition by而言,在执行完select之后,在所得结果集之上进行partition。在group by后的结果集上使用聚合函数,会作用在分组下的所有记录上。而如果在partition结果上聚合,千万注意聚合函数是逐条累计运行结果的!grou.原创 2020-09-29 15:20:49 · 9008 阅读 · 7 评论