ETL/数据仓库/BI
ETL/数据仓库/BI
Karma1670
这个作者很懒,什么都没留下…
展开
-
hive 任务日期设置(分区和业务日期)
回跑任务的时候需要输入参数,正常情况下是需要输入 20220808 2022-08-07 2个参数.但有时候忘记输入业务日期,那么第一个参数就是分区,第二个参数去分区日期的前一天[yyyy-mm-dd格式]# 参数1:dt是分区[yyyymmdd] 参数2:d是业务日期[yyyy-mm-dd]这段代码写在shell脚本 hive -e的前边。...原创 2022-08-08 15:02:44 · 1174 阅读 · 0 评论 -
hive转义问题详解
hive转义问题详解_一头秀发的刘大叔的博客-CSDN博客_hive 转义字符原创 2022-08-01 18:09:36 · 408 阅读 · 0 评论 -
mysql数据存了回车符(CRLF)导致hive数据错位
Mysql数据同步到hive表的时候,hive的数据错位,就是找不到原因。后来发现是mysql存的数据有回车符。需要把mysql数据导出来为.txt格式的文件,用Windows下面的notepad打开才能看到。notepad软件没有Mac系统的版本。如图一所示“/data/20210125/....”和“机审极速下款”的中间有CRLF字样。“/data/20210125/....”被移到了第38行。...原创 2022-07-15 18:06:51 · 982 阅读 · 0 评论 -
hive 整形(bigint)和decimal类型相加丢精度的问题
在hive中计算收入出现的一个问题:收入计算公式是若干个数据项相加,total_income = income_a+income_b+income_c+......有的数据项原本就是整形,不带小数点的,表结构里面此项是bigint类型。有的数据项就是带小数点的,设置的decimal(18,2)。当这些数据项相加的时候,总收入却是整形。bigint+decimal(18,2) --->bigint,而且不是把bigint强制转换为decimal后再和其他项相加之后再四舍五入得来的整形。所以这里需要注意的是如果原创 2022-06-22 11:47:17 · 1347 阅读 · 0 评论 -
FAILED: ParseException line 93:74 mismatched input ‘<EOF>‘ expecting ) near ‘)‘ in subquery source
如图:报错提示是93行有问题这里的93行是我下图的151行经测试 是分号;导致的,即使是注释原创 2022-05-13 17:33:50 · 2117 阅读 · 0 评论 -
报错:Hive Runtime Error: Map local work exhausted memory
因为join的左表有orc格式的.解决方法:在脚本里面增加配置内容set hive.support.concurrency=false;原创 2022-04-18 15:02:34 · 1684 阅读 · 0 评论 -
Azkaban停留在 Logging initialized using configuration in jar:file:/application/cloudera/parcels/XXXXXX
现象 Azkaban停留在Logging initialized using configuration in jar:file:/application/cloudera/parcels/CDH-5.16.2-1.cdh5.16.2.p0.8/jars/hive-common-1.1.0-cdh5.16.2.jar!/hive-log4j.properties 一直不动16-03-2022 05:00:12 CST tb_product_order_large_minutes INFO -..原创 2022-03-16 14:33:48 · 2816 阅读 · 0 评论 -
impala jdbc驱动jar包
官网打不开在github上面找到了Shmily/ImpalaJDBC41.jar at master · Shmilyqjj/Shmily · GitHub原创 2022-03-10 11:33:20 · 1991 阅读 · 0 评论 -
hue上sql运行的结果和Azkaban上运行的结果不一致.
Azkaban上是shell脚本调用sql内容hive -e "sql代码"把sql代码放在hue上运行和用Azkaban上运行。发现2者的运行结果不一样。原因如下。and event = '$AppClick' ---在hue上运行不需要加转义符\and event = '\$AppClick' ---在Azkaban上运行需要加转义符\因为$符号是特殊符号,shell脚本里面的sql代码里面需要做转义符处理。另外最好在Azkaban的运行日志里面把sql语句打印出来。如下原创 2022-01-21 14:23:46 · 1548 阅读 · 0 评论 -
mongodb源表到hive表的同步
mongodb源表--->group3_mongo.appbehaviorpoint(hive) --->ods.appbehaviorpoint(hive)group3_mongo.appbehaviorpoint 只是个mongodb到hive的映射ods.appbehaviorpoint 才是真正的同步目标表-----------------------------------------1.如果mongodb源表增加了字段,那么group3_mongo.appbeha原创 2022-01-09 15:19:46 · 1010 阅读 · 0 评论 -
Azkaban报错
shell脚本里面用hive -e" xxxxxx " 来运行sql。 xxxxx是sql内容。shell脚本是在windows环境下用idea编写的。把sql内容单独放在hue上运行成功,但是用azkaban运行报错。查找报错原因又说是用了hive关键词,发现user是关键词。把user改为users. 但是仍然报错。报错如下所示:05-01-2022 18:34:25 CST rny_loan_officer_city INFO - Logging initialized usin原创 2022-01-05 18:47:15 · 1168 阅读 · 0 评论 -
QuickBI 二级分区表预览失败解决
QuickBI数据集报错"xxx is full scan with all partitions, please specify partition predicates." (aliyun.com)ODPS二级分区表,两个分区字段都是string类型,数据集上勾选了全表扫描,数据集预览仍旧报错。以往的一级分区表分区字段也是string类型,只要勾选全表扫描,预览就正常。Table(group3_data_workspace,test_realtime_api_3) is full sca...原创 2021-10-22 15:07:21 · 1704 阅读 · 0 评论 -
OGG报错编号以及解决方法--官方英文
网址:https://docs.oracle.com/goldengate/1212/gg-winux/GMESG/oggus.htm#GMESG110原创 2021-07-28 11:00:24 · 520 阅读 · 0 评论 -
GOLDENGATE运维手册
OGG常用监控命令说明对GoldenGate实例进行监控,最简单的办法是通过GGSCI命令行的方式进行。通过在命令行输入一系列命令,并查看返回信息,来判断GoldenGate运行情况是否正常。命令行返回的信息包括整体概况、进程运行状态、检查点信息、参数文件配置、延时等。除了直接通过主机登录GGSCI界面之外,也可以通过GoldenGateDirectorWeb界面登录到每个GoldenGate实例,并运行GGSCI命令。假如客户部署了很多GoldenGate实例,如果单独登录到每个实例的GG..转载 2021-07-24 14:48:16 · 2687 阅读 · 0 评论 -
OGG常见故障排除
故障(1)错误信息:OGG-00446 Could not find archived log for sequence 53586 thread 1 under alternative destinations. SQL . Last alternative log tried /arch_cx/1_53586_776148274.arc., error retri eving redo file name for sequence 53586, archived = 1, use_alter转载 2021-07-24 14:40:37 · 2607 阅读 · 0 评论 -
OGG基础知识整理
一、GoldenGate介绍GoldenGate软件是一种基于日志的结构化数据复制软件。GoldenGate能够实现大量交易数据的实时捕捉、变换和投递,实现源数据库与目标数据库的数据同步,保持亚秒级的数据延迟。GoldenGate能够支持多种拓扑结构,包括一对一,一对多,多对一,层叠和双向复制等等。GoldenGate基本架构...转载 2021-07-24 13:42:35 · 1120 阅读 · 0 评论 -
Kettle 空字符串‘‘和Null不分的问题和解决
A表整个表往B表插入。报错某个字段为Null。实际上A表的这个报错字段并没有Null值,但是有空字符串''.需要在kettle.properties文件中增加一段代码。然后重启kettle就好了。KETTLE_EMPTY_STRING_DIFFERS_FROM_NULL=Y...原创 2020-08-24 17:39:02 · 1475 阅读 · 0 评论