数据仓库
扬州的你
向大家学习
展开
-
查询数据库元数据
【代码】查询数据库元数据。原创 2023-01-12 15:25:02 · 211 阅读 · 0 评论 -
python将csv文件插入kudu表
【代码】python将csv文件插入kudu表。原创 2022-12-16 21:21:19 · 270 阅读 · 0 评论 -
银行黄金会计分录
银行黄金会计账目原创 2022-12-07 16:14:24 · 1231 阅读 · 0 评论 -
季度时间转换
【代码】季度时间转换。原创 2022-11-16 17:14:15 · 111 阅读 · 0 评论 -
regexp_extract用法
版权声明:本文为CSDN博主「weixin_43383676」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/weixin_43383676/article/details/101020406。函数:regexp_extract(str, regexp[, idx]) ----字符串正则表达式解析函数。idx是返回结果 取表达式的哪一部分 默认值为1。要注意的是idx的数字不能大于表达式中()的个数。原创 2022-11-12 11:54:21 · 1855 阅读 · 0 评论 -
正则函数regexp_replace用法
正则regexp_replace用法,方括号内全部可以匹配[()() ]原创 2022-10-02 23:04:11 · 589 阅读 · 0 评论 -
hive求一个日期是星期几
使用hive函数获取星期几。pmod(datediff(#date#, ‘1920-01-01’) - 3, 7)#date#表示给的日期。输出的结果为0-6的数,分别表示 日,一,二 … 六。2016-01-01 52016-01-02 62016-01-03 0如果想让周一到周六对应数字1-7只需要将查询出来的数据进行判断就行了,如下:IF(pmod(datediff(#date#, ‘1920-01-01’) - 3, 7)=‘0’, 7, pmod(datediff(#date#, ‘1920-原创 2022-07-14 17:43:09 · 2303 阅读 · 0 评论 -
大数据面试技术复习hadoop,hdfs,yarn
大数据复习笔记一、hadoophadoop特性:高可靠,高拓展,高效,,高容错性。面试考点:1.hadoop1.0和2.0区别** hadoop1.0主要组成为mapreduce(计算+调度),hdfs(存储),common(辅助工具),2.0中加入了yarn负责资源调度,mapreduce只负责计算。3.0中组成上没有区别。**2.常用端口号hadoop3.xhdfs namenode 内部通常端口 :8020/9000/9820hdfs namenode 对用户的查询端口:9870原创 2022-07-05 16:26:47 · 341 阅读 · 0 评论 -
删除外部表源数据
alter table dwd.portfolio_info set tblproperties(‘external’ = ‘false’);truncate table dwd_farx.portfolio_info;alter table dwd_farx.portfolio_info set tblproperties(‘external’=‘true’);原创 2022-05-30 15:23:30 · 533 阅读 · 0 评论 -
查询字段个数
select count(column_name) from all_tab_columns a where a.table_name = 'SECURITIES'原创 2022-05-30 15:20:15 · 220 阅读 · 0 评论 -
查询字段个数
select count(column_name) from all_tab_columns a where a.table_name = 'SECURITIES'原创 2022-05-17 13:40:41 · 201 阅读 · 0 评论 -
回购shell脚本
#!/bin/bash# FileName: alldateduringtwodays1.sh# Description: Print all the date during the two days you inpute.#Simple Usage:sh repo_asset_3days.sh 2017-04-01 2017-06-14 /user/etl/fa45/dwd/repo_asset.sql & echo "input param length:" $# if [[ $#原创 2022-05-13 13:47:50 · 95 阅读 · 0 评论 -
oracle 抽到hive
oracle 到hive{ "job": { "jobId": "${jobId}", "jobVersionId": "${jobVersionId}", "executeId": "${executeId}", "serverPort": "${serverPort}", "msg": "${msg}", "setting": { "speed": { "channel": "1" }, "erro原创 2022-05-12 14:06:19 · 544 阅读 · 0 评论 -
datax hive抽到oracle
datax hive-oracle{ "job": { "jobId": "${jobId}", "jobVersionId": "${jobVersionId}", "executeId": "${executeId}", "serverPort": "${serverPort}", "msg": "${msg}", "setting": { "speed": { "channel": "1" },原创 2022-05-12 14:05:26 · 246 阅读 · 0 评论 -
hadoop跑数命令
/home/ctmagent/etl_app/fahs/hql/dwd/trade/incre--hs�������ϴ�·��/home/ctmagent/etl_app/fa45/hql/dwd/trade/incre--yss�������ϴ�·��cd /home/ctmagent/etl_app/fahs/hql/dwd/trade/increcd /home/ctmagent/etl_app/fa45/hql/dwd/trade/increhadoop fs -put -f bond_tr原创 2022-03-31 16:45:14 · 1603 阅读 · 0 评论 -
hive优化之——控制hive任务中的map数和reduce数
http://lxw1234.com/archives/2015/04/15.htm转载 2022-03-21 09:55:00 · 95 阅读 · 0 评论 -
sqoop增量减量导入
https://www.cnblogs.com/yfb918/p/10858355.html转载 2022-03-19 23:21:13 · 75 阅读 · 0 评论 -
sqoop学习笔记
全部导入bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/company \--username root \--password 000000 \--table staff \--target-dir /user/company \--num-mappers 1 \--fields-terminated-by "\t"--部分导入--connect jdbc:mysql://hadoop102:3306/company \原创 2022-03-19 23:10:27 · 137 阅读 · 1 评论 -
hive配置文档
在这里插入代码片Hive的参数设置方式1、配置文件 (全局有效)2、命令行参数(对 hive 启动实例有效)3、参数声明 (对 hive 的连接 session 有效)(1)配置文件Hive 的配置文件包括:A. 用户自定义配置文件:$HIVE_CONF_DIR/hive-site.xmlB. 默认配置文件:$HIVE_CONF_DIR/hive-default.xml用户自定义配置会覆盖默认配置。另外,Hive 也会读入 Hadoop 的配置,因为 Hive 是作为 Hadoop 的原创 2022-03-17 17:12:04 · 2650 阅读 · 0 评论 -
建表压缩hive配置
-- Create tableset hive.exec.dynamic.partition.mode=nonstrict;--使用动态分区set hive.exec.compress.output=true;--控制hive的查询结果输出是否进行压缩set mapreduce.map.output.compress=true;----压缩输出set mapred.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;原创 2022-03-17 17:11:04 · 2243 阅读 · 0 评论 -
sqoop conditions原理
当sqoop使用--query+sql执行多个maptask并行运行导入数据时,每个maptask将执行一部分数据的导入,原始数据需要使用--split-by某个字段‘来切分数据,不同的数据交给不同的maptask去处理。maptask执行sql副本时,需要在where条件中添加$CONDITIONS条件,这个是linux系统的变量,可以根据sqoop对边界条件的判断,来替换成不同的值,这就是说若split-by id,则sqoop会判断id的最小值和最大值判断id的整体区间,然后根据maptask的个数来原创 2022-03-16 22:19:04 · 739 阅读 · 0 评论 -
数仓lambda架构
数据仓库lambda架构原创 2022-03-12 22:26:47 · 561 阅读 · 0 评论 -
数据仓库分层简介
数据仓库各层作用:stg层,有的公司叫ld层:缓冲层的目的是采集各个业务系统的数据,并将这些数据结构化存储到缓冲层做数据备份,也能缓解业务系统数据库的压力。ods层:数据标准层,是将采集到缓冲层的数据进行数据清洗,关联,比对,标识形成统一的标准资源。增加了相关字段如(dwd_insert插入时间字段,bdw_etl_date etl时间字段,bdw_statis_date 分区时间字段)dwd,dws,dwt层进行主题建模ADS层专题层是在标准层和主题层的数据基础上根据实际业务需求进行模型分析。原创 2022-03-12 22:35:44 · 3432 阅读 · 3 评论