hive
文章平均质量分 53
威风少侠
大数据开发工程师
展开
-
spark创建hive外部表失败
问题1:spark版本问题一般碰到结尾为V,很可能是版本问题<spark.version>2.4.0</spark.version>问题2:一直报库不存在org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'user_profile0224' not found;解决办法:a.检查hadooponwindows-master环境变量b.增加配置.se.原创 2021-12-06 00:32:24 · 2188 阅读 · 1 评论 -
MAPJOIN来解决实际的问题
参考1:https://blog.csdn.net/pursuitbeauty/article/details/46038941参考2:https://blog.csdn.net/liuj2511981/article/details/8616730转载 2021-08-02 17:02:19 · 238 阅读 · 0 评论 -
hadoop2.7.5安装hive2.1.1启动报错Caused by: java.sql.SQLException: Access denied for user ‘root‘@‘node03‘
1.报错截图和日志hadoop2.7.5安装hive2.1.1启动报错Caused by: java.sql.SQLException: Access denied for user ‘root’@‘node03’ (using password: YES) at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:965)截图[root@node03 apache-hive-2.1.1-bin]# bin/hivewhich: n原创 2021-05-04 10:58:52 · 511 阅读 · 0 评论 -
UDTF解析xml
UDTF查询语句 select src_es.xml_pareser(a.outputdata,'{"src":"/Application/@AppId","tag":"c1","type":"NN"}','{"src":"/Application/ScoreModelReturnInfo/@AssociationID","tag":"c1","type":"NN"}','{"src":"...原创 2019-12-27 12:30:49 · 150 阅读 · 0 评论 -
UDTF函数报错解决
Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row {“serialnum”:“jksidhaish011000000sadfasdfjd36023”,“inputdata”:"<Applicat...原创 2019-12-16 13:42:41 · 624 阅读 · 1 评论 -
Hive创建表
create database if not EXISTS spark_integritionuse spark_integritioncreate EXTERNAL table student(name string,age int,gpa string)row format delimited fields terminated by '\t' lines termina...原创 2019-12-01 10:53:01 · 131 阅读 · 0 评论 -
数据仓库中历史拉链表的更新方法
具体参考http://lxw1234.com/archives/2015/08/473.htm历史拉链表更新""历史表union all增量表原创 2019-11-17 22:24:18 · 171 阅读 · 0 评论 -
Hive数据倾斜
Hive数据倾斜数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节点的reduce阶段任...原创 2019-10-31 21:28:09 · 189 阅读 · 0 评论 -
Hive优化(SQL)
Hive优化(SQL)1、where语句优化select m.cid,u.id from order m join customer u on( m.cid =u.id )where m.dt=‘20180808’;可优化为select m.cid,u.id from (select * from order where dt=‘20180818’) m join customer u o...原创 2019-10-31 21:26:32 · 245 阅读 · 0 评论 -
数据仓库分层模型
1.为什么分层?1.空间换时间2.便于计算3.逻辑清晰2.业务数据库(mysql,mongdb,oracle数据源)ODS(可操作数据层)DW(数据仓库层)DWD层 (数据明细层)负责数据的最细粒度的数据经过了ODS层清洗(去空),去重,去燥,去除大于或者小于一定阈值的明细数据。DWM层 (数据中间层)在DWD层基础上,进行轻度汇总,结合常用...原创 2019-10-31 21:16:52 · 17926 阅读 · 1 评论 -
数据仓库之拉链表
数据仓库之拉链表一、常用表介绍 1. 全量表 2. 增量表 3. 拉链表 4. 流水表 5. 拉链表 VS 流水表 二. 拉链表适用情况及优点 1. 适用情况 2. 优点 三. 拉链表举例(订单域) 1. 订单表结构 2. 为实现订单表存储,常用解决方案及存在问题 (1)快照表 (2)全量历史表 ==(3)历史拉链表== 3....转载 2019-10-30 11:32:00 · 1110 阅读 · 0 评论 -
Hive优化(调优)
hive调优参数调优1、map阶段数据压缩set hive.exec.compress.intermediate=trueset mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodecset mapred.map.output.compression.codec=com.hadoop.c...原创 2019-10-27 00:49:37 · 140 阅读 · 0 评论