- 博客(109)
- 收藏
- 关注
原创 linux命令记录
home/was/apache-tomcat-9.0.41, cd logs后 tail - f catalina.out 日志输出路径。/home/was/apache-tomcat-0.0.41/logs tomcat启动脚本路径。
2023-01-31 11:09:58 190 1
原创 regexp_extract用法
版权声明:本文为CSDN博主「weixin_43383676」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/weixin_43383676/article/details/101020406。函数:regexp_extract(str, regexp[, idx]) ----字符串正则表达式解析函数。idx是返回结果 取表达式的哪一部分 默认值为1。要注意的是idx的数字不能大于表达式中()的个数。
2022-11-12 11:54:21 1999
原创 hive求一个日期是星期几
使用hive函数获取星期几。pmod(datediff(#date#, ‘1920-01-01’) - 3, 7)#date#表示给的日期。输出的结果为0-6的数,分别表示 日,一,二 … 六。2016-01-01 52016-01-02 62016-01-03 0如果想让周一到周六对应数字1-7只需要将查询出来的数据进行判断就行了,如下:IF(pmod(datediff(#date#, ‘1920-01-01’) - 3, 7)=‘0’, 7, pmod(datediff(#date#, ‘1920-
2022-07-14 17:43:09 2357
原创 大数据复习--spark
spark与hadoop之间的根本差异是多个作业之间的数据通信问题,spark多个作业之间数据通信是基于内存,而hadoop是基于磁盘。一、executor与coresparkexecutor是集群中运行在工作节点(worker)中的一个Jvm进程,是整个集群中的专门用于计算的节点。在提交应用中,可以提供参数指定计算节点的个数,以及对应的资源。这里的资源一般指的是executor的内存大小和使用的虚拟cpu核(core)数量。–num-executors 配置executor的数量–execut
2022-07-12 15:18:15 134
原创 大数据复习-hive
一、hive建表优化分区表:将表中的数据按照指定的规则份文件夹管理。分桶表:对hive表分桶可以将表中记录按分桶键(字段)的哈希值分散进多个文件中,这些小文件称为桶。桶以文件为单位管理数据。分区针对的是数据的存储路径,分桶针对的是数据文件。如果查询的维度是分桶字段,查询的时候先确定数据所在的桶,提升查询效率。进行join的时候,关联字段就是分桶字段,只有相同的桶之间的数据进行关联,从而提升关联效率。设置下set hive.enforce.bucketing=trueset mapreduce.jo
2022-07-10 16:09:27 492
原创 大数据复习-生产调优
一、HDFS核心参数修改namenode内存,比如设置namenode内存为3g,hadoop2.0参数为HADOOP_NAMENODE_OPTS=-Xmx3072mnamenode最小值1G,每增加1000000个block,增加1G内存。datenode最小值4G,block数,或者副本数升高,都应该调大datanode的值。一个datanode上的副本总数低于4000000,调为4G,超过4000000,每增加1000000,增加1G。HADOOP_NAMENODE_OPTS=“INFO,RFA
2022-07-05 22:28:48 234
原创 大数据面试技术复习hadoop,hdfs,yarn
大数据复习笔记一、hadoophadoop特性:高可靠,高拓展,高效,,高容错性。面试考点:1.hadoop1.0和2.0区别** hadoop1.0主要组成为mapreduce(计算+调度),hdfs(存储),common(辅助工具),2.0中加入了yarn负责资源调度,mapreduce只负责计算。3.0中组成上没有区别。**2.常用端口号hadoop3.xhdfs namenode 内部通常端口 :8020/9000/9820hdfs namenode 对用户的查询端口:9870
2022-07-05 16:26:47 392
原创 删除外部表源数据
alter table dwd.portfolio_info set tblproperties(‘external’ = ‘false’);truncate table dwd_farx.portfolio_info;alter table dwd_farx.portfolio_info set tblproperties(‘external’=‘true’);
2022-05-30 15:23:30 554
原创 查询字段个数
select count(column_name) from all_tab_columns a where a.table_name = 'SECURITIES'
2022-05-30 15:20:15 261
原创 查询字段个数
select count(column_name) from all_tab_columns a where a.table_name = 'SECURITIES'
2022-05-17 13:40:41 211
原创 回购shell脚本
#!/bin/bash# FileName: alldateduringtwodays1.sh# Description: Print all the date during the two days you inpute.#Simple Usage:sh repo_asset_3days.sh 2017-04-01 2017-06-14 /user/etl/fa45/dwd/repo_asset.sql & echo "input param length:" $# if [[ $#
2022-05-13 13:47:50 107
原创 oracle 抽到hive
oracle 到hive{ "job": { "jobId": "${jobId}", "jobVersionId": "${jobVersionId}", "executeId": "${executeId}", "serverPort": "${serverPort}", "msg": "${msg}", "setting": { "speed": { "channel": "1" }, "erro
2022-05-12 14:06:19 575
原创 datax hive抽到oracle
datax hive-oracle{ "job": { "jobId": "${jobId}", "jobVersionId": "${jobVersionId}", "executeId": "${executeId}", "serverPort": "${serverPort}", "msg": "${msg}", "setting": { "speed": { "channel": "1" },
2022-05-12 14:05:26 273
原创 hadoop跑数命令
/home/ctmagent/etl_app/fahs/hql/dwd/trade/incre--hs�������ϴ�·��/home/ctmagent/etl_app/fa45/hql/dwd/trade/incre--yss�������ϴ�·��cd /home/ctmagent/etl_app/fahs/hql/dwd/trade/increcd /home/ctmagent/etl_app/fa45/hql/dwd/trade/increhadoop fs -put -f bond_tr
2022-03-31 16:45:14 1650
转载 hive优化之——控制hive任务中的map数和reduce数
http://lxw1234.com/archives/2015/04/15.htm
2022-03-21 09:55:00 109
原创 sqoop学习笔记
全部导入bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/company \--username root \--password 000000 \--table staff \--target-dir /user/company \--num-mappers 1 \--fields-terminated-by "\t"--部分导入--connect jdbc:mysql://hadoop102:3306/company \
2022-03-19 23:10:27 168 1
原创 hive配置文档
在这里插入代码片Hive的参数设置方式1、配置文件 (全局有效)2、命令行参数(对 hive 启动实例有效)3、参数声明 (对 hive 的连接 session 有效)(1)配置文件Hive 的配置文件包括:A. 用户自定义配置文件:$HIVE_CONF_DIR/hive-site.xmlB. 默认配置文件:$HIVE_CONF_DIR/hive-default.xml用户自定义配置会覆盖默认配置。另外,Hive 也会读入 Hadoop 的配置,因为 Hive 是作为 Hadoop 的
2022-03-17 17:12:04 2765
原创 建表压缩hive配置
-- Create tableset hive.exec.dynamic.partition.mode=nonstrict;--使用动态分区set hive.exec.compress.output=true;--控制hive的查询结果输出是否进行压缩set mapreduce.map.output.compress=true;----压缩输出set mapred.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
2022-03-17 17:11:04 2270
原创 sqoop conditions原理
当sqoop使用--query+sql执行多个maptask并行运行导入数据时,每个maptask将执行一部分数据的导入,原始数据需要使用--split-by某个字段‘来切分数据,不同的数据交给不同的maptask去处理。maptask执行sql副本时,需要在where条件中添加$CONDITIONS条件,这个是linux系统的变量,可以根据sqoop对边界条件的判断,来替换成不同的值,这就是说若split-by id,则sqoop会判断id的最小值和最大值判断id的整体区间,然后根据maptask的个数来
2022-03-16 22:19:04 788
原创 数据仓库分层简介
数据仓库各层作用:stg层,有的公司叫ld层:缓冲层的目的是采集各个业务系统的数据,并将这些数据结构化存储到缓冲层做数据备份,也能缓解业务系统数据库的压力。ods层:数据标准层,是将采集到缓冲层的数据进行数据清洗,关联,比对,标识形成统一的标准资源。增加了相关字段如(dwd_insert插入时间字段,bdw_etl_date etl时间字段,bdw_statis_date 分区时间字段)dwd,dws,dwt层进行主题建模ADS层专题层是在标准层和主题层的数据基础上根据实际业务需求进行模型分析。
2022-03-12 22:35:44 3523 3
原创 解开TDH执行增删改查等命令
SET HIVE.EXEC.DYNAMIC.PARTITION = TRUESET HIVE.CRUD.DYNAMIC.PARTITION = TRUE
2022-03-10 16:51:03 386
原创 pg实现substr_index效果
SUBSTR(T3.KEYVALUE,position('/' in T3.KEYVALUE)+1) SUBSTR(T3.KEYVALUE,1,position('/' in T3.KEYVALUE)-1)
2022-02-22 18:28:13 709
原创 ---生成连续的日期
---生成连续的日期selectdate_add(start_date,pos) as dtfrom( select '2021-10-01' as start_date ,'2021-10-15' as end_date)tlateral view posexplode(split(repeat(',',datediff(end_date,start_date)),',')) tab as pos,val
2022-02-21 18:28:43 317
原创 脚本增量方法
T1.D_MAKE IN ( SELECT DISTINCT busi_date from pub_fund_test.portf_change_log where orisys ='fahs3.0' and oper_date='${dHold}' )--增量
2022-02-21 18:18:46 163
原创 ods建表和dwd脚本,ld2ods
INSERT OVERWRITE TABLE DWD_FA.ASSET_UNIT_INFO PARTITION(orisys='AM4', ASSET_HOLD_DATE)select assetunit_code portf_code fund_code assetunit_name assetunit_status assetunit_prop assetunit_sn batch_time created_by ndc_
2022-02-21 10:47:49 281
原创 mysql操作
1.导出整个数据库1mysqldump -u 用户名 -p –default-character-set=latin1 数据库名 > 导出的文件名(数据库默认编码是latin1)23mysqldump -u wcnc -p smgp_apps_wcnc > wcnc.sql2.导出一个表1mysqldump -u 用户名 -p 数据库名 表名> 导出的文件名23mysqldump -u wcnc -p smgp_apps_wcnc users> wcnc_users.s
2022-02-10 16:46:02 81
原创 存储过程和函数
-- 存储过程 PROCEDURE 和 自定义函数 FUNCTION功能: PROCEDURE 用来更新/同步数据 。 FUNCTION 用来 对复杂的计算进行封装 ; /* 他们俩共同的特点就是对一些 公共的逻辑或者代码进行 封装,方便后续的更新和调用 。 面向对象 。*/ 语法: -- 创建存储过程 CREATE OR REPLACE PROCEDURE SP_过程名(参数1 [IN|OUT|IN OUT] 数据类型,参数2 [IN|OUT|IN OUT] 数据类型……)
2022-02-10 16:45:22 166
原创 hive删除表语句
-- 删除库drop database if exists db_name;-- 强制删除库drop database if exists db_name cascade;-- 删除表drop table if exists employee;-- 清空表truncate table employee;-- 清空表,第二种方式insert overwrite table employee select * from employee where 1=0; -- 删除分区
2022-01-11 10:13:56 5050
原创 百度贴吧爬虫获取网页
""" 贴吧"""import requestsimport refrom urllib import parseimport timeimport randomclass BaiduSpider: def __init__(self): self.url = 'http://tieba.baidu.com/f?kw={}&pn={}' self.headers = {'User-Agent':'Mozilla/5.0 (Window
2021-12-20 23:33:03 206
原创 %d,%s,%c,%x
%d,%c,%s,%x是程序汇编语言中的格式符,它们的含义:1、%d表示按整型数据的实际长度输出数据。2、%c用来输出一个字符。3、%s用来输出一个字符串。4、%x表示以十六进制数形式输出整数。...
2021-12-11 23:21:03 453
原创 lpad()函数和(row_number()over( order by )+ ...)
--LPAD自动在前面加数值,例子里面是0,凑足14位select'ZCZQ45' || LPAD((row_number() over(order by t1.C_PORT_CODE)+tmp_tbl.max_num), 14, '0') as abcfrom bbb
2021-12-10 23:46:03 600
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人