自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(109)
  • 收藏
  • 关注

原创 凸性与久期

凸性是指债券到期收益率发生变动而引起的债券价格变动幅度的变动程度。凸性是指债券价格对收益率的二阶导数。

2023-08-25 14:28:33 531

原创 linux命令记录

home/was/apache-tomcat-9.0.41, cd logs后 tail - f catalina.out 日志输出路径。/home/was/apache-tomcat-0.0.41/logs tomcat启动脚本路径。

2023-01-31 11:09:58 190 1

原创 查询数据库元数据

【代码】查询数据库元数据。

2023-01-12 15:25:02 240

原创 python将csv文件插入kudu表

【代码】python将csv文件插入kudu表。

2022-12-16 21:21:19 296

原创 银行黄金会计分录

银行黄金会计账目

2022-12-07 16:14:24 1349

原创 季度时间转换

【代码】季度时间转换。

2022-11-16 17:14:15 118

原创 regexp_extract用法

版权声明:本文为CSDN博主「weixin_43383676」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/weixin_43383676/article/details/101020406。函数:regexp_extract(str, regexp[, idx]) ----字符串正则表达式解析函数。idx是返回结果 取表达式的哪一部分 默认值为1。要注意的是idx的数字不能大于表达式中()的个数。

2022-11-12 11:54:21 1999

原创 正则函数regexp_replace用法

正则regexp_replace用法,方括号内全部可以匹配[()() ]

2022-10-02 23:04:11 607

原创 hive求一个日期是星期几

使用hive函数获取星期几。pmod(datediff(#date#, ‘1920-01-01’) - 3, 7)#date#表示给的日期。输出的结果为0-6的数,分别表示 日,一,二 … 六。2016-01-01 52016-01-02 62016-01-03 0如果想让周一到周六对应数字1-7只需要将查询出来的数据进行判断就行了,如下:IF(pmod(datediff(#date#, ‘1920-01-01’) - 3, 7)=‘0’, 7, pmod(datediff(#date#, ‘1920-

2022-07-14 17:43:09 2357

原创 大数据复习--spark

spark与hadoop之间的根本差异是多个作业之间的数据通信问题,spark多个作业之间数据通信是基于内存,而hadoop是基于磁盘。一、executor与coresparkexecutor是集群中运行在工作节点(worker)中的一个Jvm进程,是整个集群中的专门用于计算的节点。在提交应用中,可以提供参数指定计算节点的个数,以及对应的资源。这里的资源一般指的是executor的内存大小和使用的虚拟cpu核(core)数量。–num-executors 配置executor的数量–execut

2022-07-12 15:18:15 134

原创 大数据复习-hive

一、hive建表优化分区表:将表中的数据按照指定的规则份文件夹管理。分桶表:对hive表分桶可以将表中记录按分桶键(字段)的哈希值分散进多个文件中,这些小文件称为桶。桶以文件为单位管理数据。分区针对的是数据的存储路径,分桶针对的是数据文件。如果查询的维度是分桶字段,查询的时候先确定数据所在的桶,提升查询效率。进行join的时候,关联字段就是分桶字段,只有相同的桶之间的数据进行关联,从而提升关联效率。设置下set hive.enforce.bucketing=trueset mapreduce.jo

2022-07-10 16:09:27 492

原创 大数据复习-生产调优

一、HDFS核心参数修改namenode内存,比如设置namenode内存为3g,hadoop2.0参数为HADOOP_NAMENODE_OPTS=-Xmx3072mnamenode最小值1G,每增加1000000个block,增加1G内存。datenode最小值4G,block数,或者副本数升高,都应该调大datanode的值。一个datanode上的副本总数低于4000000,调为4G,超过4000000,每增加1000000,增加1G。HADOOP_NAMENODE_OPTS=“INFO,RFA

2022-07-05 22:28:48 234

原创 大数据面试技术复习hadoop,hdfs,yarn

大数据复习笔记一、hadoophadoop特性:高可靠,高拓展,高效,,高容错性。面试考点:1.hadoop1.0和2.0区别** hadoop1.0主要组成为mapreduce(计算+调度),hdfs(存储),common(辅助工具),2.0中加入了yarn负责资源调度,mapreduce只负责计算。3.0中组成上没有区别。**2.常用端口号hadoop3.xhdfs namenode 内部通常端口 :8020/9000/9820hdfs namenode 对用户的查询端口:9870

2022-07-05 16:26:47 392

原创 删除外部表源数据

alter table dwd.portfolio_info set tblproperties(‘external’ = ‘false’);truncate table dwd_farx.portfolio_info;alter table dwd_farx.portfolio_info set tblproperties(‘external’=‘true’);

2022-05-30 15:23:30 554

原创 查询字段个数

select count(column_name) from all_tab_columns a where a.table_name = 'SECURITIES'

2022-05-30 15:20:15 261

原创 查询字段个数

select count(column_name) from all_tab_columns a where a.table_name = 'SECURITIES'

2022-05-17 13:40:41 211

原创 回购shell脚本

#!/bin/bash# FileName: alldateduringtwodays1.sh# Description: Print all the date during the two days you inpute.#Simple Usage:sh repo_asset_3days.sh 2017-04-01 2017-06-14 /user/etl/fa45/dwd/repo_asset.sql & echo "input param length:" $# if [[ $#

2022-05-13 13:47:50 107

原创 oracle 抽到hive

oracle 到hive{ "job": { "jobId": "${jobId}", "jobVersionId": "${jobVersionId}", "executeId": "${executeId}", "serverPort": "${serverPort}", "msg": "${msg}", "setting": { "speed": { "channel": "1" }, "erro

2022-05-12 14:06:19 575

原创 datax hive抽到oracle

datax hive-oracle{ "job": { "jobId": "${jobId}", "jobVersionId": "${jobVersionId}", "executeId": "${executeId}", "serverPort": "${serverPort}", "msg": "${msg}", "setting": { "speed": { "channel": "1" },

2022-05-12 14:05:26 273

原创 hadoop跑数命令

/home/ctmagent/etl_app/fahs/hql/dwd/trade/incre--hs�������ϴ�·��/home/ctmagent/etl_app/fa45/hql/dwd/trade/incre--yss�������ϴ�·��cd /home/ctmagent/etl_app/fahs/hql/dwd/trade/increcd /home/ctmagent/etl_app/fa45/hql/dwd/trade/increhadoop fs -put -f bond_tr

2022-03-31 16:45:14 1650

转载 hive优化之——控制hive任务中的map数和reduce数

http://lxw1234.com/archives/2015/04/15.htm

2022-03-21 09:55:00 109

转载 sqoop增量减量导入

https://www.cnblogs.com/yfb918/p/10858355.html

2022-03-19 23:21:13 85

原创 sqoop学习笔记

全部导入bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/company \--username root \--password 000000 \--table staff \--target-dir /user/company \--num-mappers 1 \--fields-terminated-by "\t"--部分导入--connect jdbc:mysql://hadoop102:3306/company \

2022-03-19 23:10:27 168 1

原创 hive配置文档

在这里插入代码片Hive的参数设置方式1、配置文件 (全局有效)2、命令行参数(对 hive 启动实例有效)3、参数声明 (对 hive 的连接 session 有效)(1)配置文件Hive 的配置文件包括:A. 用户自定义配置文件:$HIVE_CONF_DIR/hive-site.xmlB. 默认配置文件:$HIVE_CONF_DIR/hive-default.xml用户自定义配置会覆盖默认配置。另外,Hive 也会读入 Hadoop 的配置,因为 Hive 是作为 Hadoop 的

2022-03-17 17:12:04 2765

原创 建表压缩hive配置

-- Create tableset hive.exec.dynamic.partition.mode=nonstrict;--使用动态分区set hive.exec.compress.output=true;--控制hive的查询结果输出是否进行压缩set mapreduce.map.output.compress=true;----压缩输出set mapred.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;

2022-03-17 17:11:04 2270

原创 sqoop conditions原理

当sqoop使用--query+sql执行多个maptask并行运行导入数据时,每个maptask将执行一部分数据的导入,原始数据需要使用--split-by某个字段‘来切分数据,不同的数据交给不同的maptask去处理。maptask执行sql副本时,需要在where条件中添加$CONDITIONS条件,这个是linux系统的变量,可以根据sqoop对边界条件的判断,来替换成不同的值,这就是说若split-by id,则sqoop会判断id的最小值和最大值判断id的整体区间,然后根据maptask的个数来

2022-03-16 22:19:04 788

原创 数据仓库分层简介

数据仓库各层作用:stg层,有的公司叫ld层:缓冲层的目的是采集各个业务系统的数据,并将这些数据结构化存储到缓冲层做数据备份,也能缓解业务系统数据库的压力。ods层:数据标准层,是将采集到缓冲层的数据进行数据清洗,关联,比对,标识形成统一的标准资源。增加了相关字段如(dwd_insert插入时间字段,bdw_etl_date etl时间字段,bdw_statis_date 分区时间字段)dwd,dws,dwt层进行主题建模ADS层专题层是在标准层和主题层的数据基础上根据实际业务需求进行模型分析。

2022-03-12 22:35:44 3523 3

原创 数仓lambda架构

数据仓库lambda架构

2022-03-12 22:26:47 575

原创 解开TDH执行增删改查等命令

SET HIVE.EXEC.DYNAMIC.PARTITION = TRUESET HIVE.CRUD.DYNAMIC.PARTITION = TRUE

2022-03-10 16:51:03 386

原创 pg实现substr_index效果

SUBSTR(T3.KEYVALUE,position('/' in T3.KEYVALUE)+1) SUBSTR(T3.KEYVALUE,1,position('/' in T3.KEYVALUE)-1)

2022-02-22 18:28:13 709

原创 ---生成连续的日期

---生成连续的日期selectdate_add(start_date,pos) as dtfrom( select '2021-10-01' as start_date ,'2021-10-15' as end_date)tlateral view posexplode(split(repeat(',',datediff(end_date,start_date)),',')) tab as pos,val

2022-02-21 18:28:43 317

原创 脚本增量方法

T1.D_MAKE IN ( SELECT DISTINCT busi_date from pub_fund_test.portf_change_log where orisys ='fahs3.0' and oper_date='${dHold}' )--增量

2022-02-21 18:18:46 163

原创 ods建表和dwd脚本,ld2ods

INSERT OVERWRITE TABLE DWD_FA.ASSET_UNIT_INFO PARTITION(orisys='AM4', ASSET_HOLD_DATE)select assetunit_code portf_code fund_code assetunit_name assetunit_status assetunit_prop assetunit_sn batch_time created_by ndc_

2022-02-21 10:47:49 281

原创 mysql操作

1.导出整个数据库1mysqldump -u 用户名 -p –default-character-set=latin1 数据库名 > 导出的文件名(数据库默认编码是latin1)23mysqldump -u wcnc -p smgp_apps_wcnc > wcnc.sql2.导出一个表1mysqldump -u 用户名 -p 数据库名 表名> 导出的文件名23mysqldump -u wcnc -p smgp_apps_wcnc users> wcnc_users.s

2022-02-10 16:46:02 81

原创 存储过程和函数

-- 存储过程 PROCEDURE 和 自定义函数 FUNCTION功能: PROCEDURE 用来更新/同步数据 。 FUNCTION 用来 对复杂的计算进行封装 ; /* 他们俩共同的特点就是对一些 公共的逻辑或者代码进行 封装,方便后续的更新和调用 。 面向对象 。*/ 语法: -- 创建存储过程 CREATE OR REPLACE PROCEDURE SP_过程名(参数1 [IN|OUT|IN OUT] 数据类型,参数2 [IN|OUT|IN OUT] 数据类型……)

2022-02-10 16:45:22 166

原创 hive删除表语句

-- 删除库drop database if exists db_name;-- 强制删除库drop database if exists db_name cascade;-- 删除表drop table if exists employee;-- 清空表truncate table employee;-- 清空表,第二种方式insert overwrite table employee select * from employee where 1=0; -- 删除分区

2022-01-11 10:13:56 5050

原创 百度贴吧爬虫获取网页

""" 贴吧"""import requestsimport refrom urllib import parseimport timeimport randomclass BaiduSpider: def __init__(self): self.url = 'http://tieba.baidu.com/f?kw={}&pn={}' self.headers = {'User-Agent':'Mozilla/5.0 (Window

2021-12-20 23:33:03 206

原创 %d,%s,%c,%x

%d,%c,%s,%x是程序汇编语言中的格式符,它们的含义:1、%d表示按整型数据的实际长度输出数据。2、%c用来输出一个字符。3、%s用来输出一个字符串。4、%x表示以十六进制数形式输出整数。...

2021-12-11 23:21:03 453

原创 lpad()函数和(row_number()over( order by )+ ...)

--LPAD自动在前面加数值,例子里面是0,凑足14位select'ZCZQ45' || LPAD((row_number() over(order by t1.C_PORT_CODE)+tmp_tbl.max_num), 14, '0') as abcfrom bbb

2021-12-10 23:46:03 600

原创 mysql远程登录

2021-12-10 11:01:59 505

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除