![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
胖胖学编程
这个作者很懒,什么都没留下…
展开
-
hive报错File does not exist: /tmp/hadoop-yarn/staging/root/.staging/job_1699234747075_0001/job_.jhist
设置了hive metastore高可用,但未启动zookeeper!无语了 ,刚好前一天服务器掉电了,还以为是yarn坏了。原创 2023-11-07 16:59:24 · 732 阅读 · 0 评论 -
[hive]解决group by 字段超过系统规定64个
用开窗函数即可where rn=1。原创 2023-10-10 11:13:56 · 221 阅读 · 0 评论 -
[hive]hive不允许分区字段为中文或特殊字段
【代码】[hive]hive不允许分区字段为中文或特殊字段。原创 2023-09-25 12:14:00 · 361 阅读 · 0 评论 -
[hive]搭建hive3.1.2hiveserver2高可用可hive metastore高可用
没用里头的hive on spark,测试后发现版本冲突。原创 2023-09-19 10:18:39 · 501 阅读 · 0 评论 -
[hive]报错:Caused by: java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver
我自己的项目产生的原因是由于“3.版本不匹配”问题导致的。经过排查“ mysql-connector-java.jar ”包 5XX开始的版本路径是:“com.mysql.jdbc.Driver”,而6XX及以上开始的版本路径是:“com.mysql.cj.jdbc.Driver”。但是还是报Caused by: java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver。装元数据的mysql版本不用管,不用重装mysql。原创 2023-09-15 16:49:21 · 307 阅读 · 0 评论 -
[hive]join on字段为null
join的时候,坐标null字段是关联不上的右表字段的。原创 2023-03-20 14:21:52 · 359 阅读 · 0 评论 -
[hive]所有参数总结--进行中
最好别设置reduce的个数,设置为20则reduce总数为20。默认为-1,系统自动设置为700多个reduce。原创 2023-03-13 10:58:47 · 61 阅读 · 0 评论 -
[hive]执行计划
Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,每个Stage对应一个Mapreduce Job,或者一个文件系统的操作(select *、load,这种不走MR)。原创 2023-03-10 11:28:00 · 516 阅读 · 0 评论 -
[hive]sort by limit和reduce by limit
它走两个MR:第一个MR内每个reduce取topN,第二个MR对所有已经取过topN的reduce进行汇总排序,再整个取topN。在没看这块之前,我一直以为sort by limit只是单纯的在每个reduce中有序,并不能实现全局排序。最好别设置reduce的个数,设置为20则reduce总数为20。order by limit是一个reduce全局topN。但实际上是sort by确实是单个reduce有序。默认为-1,系统自动设置为700多个reduce。只有1个MR的Stage。原创 2023-03-09 10:29:16 · 223 阅读 · 0 评论 -
[hive]order by优化--未完
查两次,第一次组内排序:sort by + distribute by 取topN。第二次再对分组TopN的数据全局排序:order by。跑了1个小时还是没跑完,通过对任务的观察发现是多个reduce在并行执行没错,但是最后一步的汇总还是一个reduce。点开之后发现那个reduce写着reduce->sort。原创 2023-03-07 15:43:29 · 145 阅读 · 0 评论 -
[hive]文件出现000000_0_copy_1
原因:在使用insert into table时,每次会再添加一份文件。 000000_0_copy_1原创 2023-03-03 16:05:23 · 449 阅读 · 1 评论 -
[hive]装HA不成功,如何恢复到之前的状态
恢复HA 重装hive 装hive HA不成功,如何恢复到之前的状态原创 2023-03-01 10:24:48 · 91 阅读 · 0 评论 -
[报错]hive Caused by: java.lang.OutOfMemoryError: Java heap space
hive Caused by: java.lang.OutOfMemoryError: Java heap space原创 2023-03-01 08:39:37 · 282 阅读 · 0 评论 -
[hive]留存率(次日/七日/月)
2022-01-01的次日留存率=2022-02-01登录的人中也在2022-02-02登录的人数/2022-02-01登录的人数。求2021-01-01的次日留存,join后分组是这样的,找到差为1的id再去重就可以了,如果是七日留存,则差为7。使用hql对以下日志进行分析,加工出2021-01-01到2022-02-01期间的次日留存率。原创 2023-02-08 16:09:27 · 437 阅读 · 1 评论 -
[hive]hive count(*)=0但是select *有数据
当设置hive.compute.query.using.stats=true时,hive在执行某些查询时,例如select count(),只利用元数据存储中保存的状态信息返回结果,从而提高了响应速度。这是一个CBO(基于成本的优化)的设置。原创 2023-02-06 10:44:14 · 423 阅读 · 0 评论 -
[报错]hive No files matching path file:
Hive不能加载以_为开头的文件名。原创 2023-01-30 15:21:36 · 938 阅读 · 0 评论 -
[hive]return code -101 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. GC overhead limit exceeded
2、group by 数据倾斜。1、调大reduce个数。原创 2022-11-10 15:02:29 · 2437 阅读 · 0 评论 -
[hive]with语句,这样就不用创建那么多的临时表了
【代码】[hive]with语句,这样就不用创建那么多的临时表了。原创 2022-10-26 17:00:26 · 412 阅读 · 0 评论 -
[hive]lateral view炸开两层
lateral view 用法 炸开两列原创 2022-10-13 10:41:22 · 553 阅读 · 0 评论 -
[hive]hive优化
[hive]hive优化原创 2022-10-11 17:25:47 · 628 阅读 · 0 评论 -
[hive]系统函数 | 窗口函数 | 分区表 | 分桶表 | 数据类型 | 默认分隔符
hive 系统函数 窗口函数原创 2022-10-10 11:28:05 · 306 阅读 · 0 评论 -
hive3 union 丢数据
hive3 union 丢数据原创 2022-09-21 16:17:41 · 900 阅读 · 1 评论 -
[hive]按照分区加载数据
hive按照分区加载数据原创 2022-09-15 15:01:14 · 263 阅读 · 0 评论 -
hive 3.1.2 cast as int is not null没有过滤
hive 3.1.2 cast as int is not null没有过滤原创 2022-08-26 10:57:32 · 640 阅读 · 0 评论 -
[报错]Caused by: java.lang.ClassNotFoundException: org.apache.tez.dag.api.SessionNotRunning(没用)
Caused by: java.lang.ClassNotFoundException: org.apache.tez.dag.api.SessionNotRunning原创 2022-08-09 11:17:55 · 805 阅读 · 0 评论 -
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException)
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException)原创 2022-08-09 11:16:40 · 727 阅读 · 0 评论 -
[报错]用hiveserver2查询出现错误
ERROR : Job Submission failed with exception org.apache.hadoop.security.AccessControlException(Permission denied: user=anonymous, access=EXECUTE, inode="/tmp":hadoop:supergroup:drwxrwx---原创 2022-07-14 15:59:25 · 531 阅读 · 0 评论 -
[hive]collect_set排序问题
即:collect_set(a) over(partition by b order by c) 集合中的数据a会按照 c列的顺序 按行累加。本身也是需要按照指标进行去重的,在这里我们选择最长的一条进行去重,就可以解决问题了,最长的那条涵盖了所有的数据。第二列:该指标下的所有地区名称,按照地区代码顺序排序,按照";"进行分割,且该字段不为空时,末尾追加";第三列:该指标下所有的年份,按字母顺序排序,按照";在over中按照地区代码进行排序,然后在collect_set中把排好顺序的数据收集起来。原创 2022-06-21 16:46:42 · 5565 阅读 · 0 评论 -
[hive]正则
hive正则 正则替换原创 2022-06-17 14:33:57 · 545 阅读 · 0 评论 -
[hive]hive在写SQL中出现分号,分号要\;转义\;
1、报错2、转义后原创 2022-05-09 14:53:24 · 2173 阅读 · 0 评论 -
[报错]hive启动错误
报错一Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf在连接数据库查询的时候发现数据库已经存在,但是查询的时候显示不存在。并且重新创建数据库的话,也显示不存在。开启hiveserver2报错原因:没有启动hive metastore服务,开启:hive --service metastore &报错二但是在开启之后出现如下报错Caused by: ..原创 2022-05-05 14:23:00 · 4989 阅读 · 0 评论 -
[hive]union all拼接会串位
分别查询:select count(*) from tmp.tmp_shi_pair_sheng2;--44687select count(*) from tmp.tmp_not_handle_is_finished;--7378033select count(*) from tmp.tmp_area_same_other --99871union all1.当两者数量相差不是很大时,顺序是正常的select count(*) from tmp.tmp_area_same_othe原创 2022-04-11 15:59:36 · 465 阅读 · 0 评论 -
[hive]hive开窗大小
create table test.b5 asselect*,collect_set(year) over(partition by zheng_shi_indicator,guo_biao_di_yu_dai_ma,sub order by year) one_rangefrom test.b4 create table test.b6 asselect*,collect_set(year) over(partition by zheng_shi_indicator,guo_.原创 2022-04-01 15:36:09 · 1318 阅读 · 0 评论 -
[hive]Tez引擎的优点
Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。MR、Tez、Spark的区别:Mr引擎:多Job串联,基于磁盘,落盘的地方比较多,虽然慢,但一定能跑出结果,一般处理:周、月、年指标。Spark引擎:虽然在Shuffle过程中也落盘,但是并不是所有算子都需要Shuffle,尤其是多算子过程,中间过程不落盘,DAG有向无环图兼顾了可靠性和效率,一般处理天指标。Tez引擎:完全基于内存。注意:如果数据量特别大,慎重使用,容易OOM,原创 2022-03-31 11:18:35 · 2599 阅读 · 0 评论 -
[hive]hive结果表中每500万条记录生成一个文件(Kbase可用)
drop table ads.ads_distinct_zhibiao_nian_diqu;create table ads.ads_distinct_zhibiao_nian_diqu( top string, years string, zheng_shi_indicator string, zheng_shi_indicator_old string, di_qu_dai_ma string, di_qu_deng_ji string, d.原创 2022-03-29 09:56:38 · 522 阅读 · 0 评论 -
[hive] 和数据库的比较 | 内部表和外部表 |distribute by cluster by partition by|order by sort by区别 | 修复分区
1.和数据库的比较hive和数据库除了拥有类似的查询语言,再无类似之处。1)数据的存储位置hive存储在HDFS,数据库将数据保存在块设备或者本地文件系统中。2)数据更新hive中不建议对数据的修改(开启事务可以做到),而数据库中的数据通常是需要经常修改的。3)执行延迟hive执行延迟较高,数据库的延迟较低。但这是有条件的,即数据规模较小。当数据规模大到超过数据库的处理能力时,hive的并行计算显然能体现出优势。4)数据规模hive支持大规模的数据计算,数据库可以支持的数原创 2022-03-25 17:17:43 · 2170 阅读 · 0 评论 -
[hive] mr 引擎 和spark引擎对reduce task的设置
Configuration Properties - Apache Hive - Apache Software Foundation1.mrmapred.reduce.tasks强制指定reduce个数默认值:-1添加于:Hive 0.1.0通过将此属性设置为 -1,Hive 将自动计算出reduce task的数量。hive.exec.reducers.bytes.per.reducer每个reduce task处理的最大数据量Hive 0.14.0 及更高版本中为256,0.原创 2022-03-25 17:02:18 · 2030 阅读 · 0 评论 -
[linux] create table t1 as select * from |创建表之后insert 该表 select * from 是否走mr
create table as select * from和insert select * from 都不走mr原创 2022-03-24 15:29:36 · 420 阅读 · 0 评论 -
[hive]hive结果表中每500万条记录生成一个文件(不适合KBase数据)
查询官网Configuration Properties - Apache Hive - Apache Software Foundation1.有三个对reduce task设定的参数mapred.reduce.tasks强制指定reduce个数默认值:-1添加于:Hive 0.1.0通过将此属性设置为 -1,Hive 将自动计算出reduce task的数量。hive.exec.reducers.bytes.per.reducer每个reduce task处理的最大数据量H原创 2022-03-24 15:33:19 · 948 阅读 · 0 评论 -
[hive]hive工作原理(未完)
1.例子select dept, sum(salary) from emp group by dept;考虑下这个东西你自己写会怎么计算:你有一张表在hdfs上,这个表是一张员工表,有几个字段:id 名称 部门 备注 工资id:integer,name:varchar,dept:varchar,memo: string,salary:Integer1, 春日野悠, 总裁办,原创 2022-03-23 17:22:51 · 419 阅读 · 0 评论