![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
小萌猿
本人的所有文章仅代表个人想法与经验,有问题的地方望多多指教
展开
-
Hive数据的数据存储
Hive建表后,表的元数据存储在关系型数据库中(如:mysql),表的数据(内容)存储在hdfs中,这些数据是以文本的形式存储在hdfs中(关系型数据库是以二进制形式存储的),既然是存储在hdfs上,那么这些数据本身也是有元数据的(在NameNode中),而数据在DataNode中。这里注意两个元数据的不同。 如下图,建表并导入数据: 之后在mysql中会发现: 有一个hive_...原创 2018-03-07 10:19:23 · 11936 阅读 · 1 评论 -
hive使用过程报的几个错
Hwi出错:org.apache.jasper.JasperException: Unable to compile class for JSP 解决:将java安装路径lib下的tools.jar添加到hive的lib中即可调用python脚本出错:An error occurred when trying to close the Operator running your custom...原创 2018-03-08 10:39:38 · 2617 阅读 · 0 评论 -
hive启动出错:Found class jline.Terminal, but interface was expected
启动hive时报错,如下图: 原因:hadoop与hive的jline包版本不一致造成 解决:在hadoop安装路径下的share/hadoop/yarn/lib找到jline-xxx.jar 在hive路径下的lib里也找到jline-xxx.jar,会发现这两个包版本不一致,将其同步即可,用新版本的替换老版本(反之也行)...原创 2018-03-04 22:12:16 · 3560 阅读 · 0 评论 -
hive优化-count(distinct)
问题描述COUNT(DISTINCT xxx)在hive中很容易造成数据倾斜。针对这一情况,网上已有很多...转载 2018-09-12 17:05:03 · 2445 阅读 · 0 评论 -
Failed to recognize predicate 'row'. Failed rule: 'identifier' in column specification
Hive创建Hbase外联表时报的错。错因:row与Hive关键字同名了,改为其他名即可原创 2018-12-13 21:03:18 · 2612 阅读 · 0 评论 -
Hive通过using jar创建function时的缓存问题
项目中遇到的小知识点,记录一下。我们通过using jar方式创建function后,这个jar包(假设为a.jar)会被缓存,如果创建下一个function时,同样需要使用a.jar,但是不同的是这个a.jar是重新打的包,它里面添加了我们创建第二个function需要的UDF。这时候创建function会报错:提示找不到第二个需要的UDF。原因就是,a.jar在第一次using的时候被缓存了...原创 2018-12-14 21:55:11 · 2262 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by    Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。  &n...转载 2019-03-09 23:08:49 · 560 阅读 · 0 评论