- 博客(181)
- 资源 (5)
- 收藏
- 关注
原创 IDEA修改SVN地址
公司的SVN地址改变了(本地项目还没同步)(一) 选中项目,右键Subversion --> RelocateFrom URL路径保持不变(修改To URL为最新路径)(二)选中项目,右键Subversion --> Update Directory勾选Update修改URL为最新的即可。...
2019-01-03 19:43:08
31136
7
原创 oracle常用命令(hive转换)
字段类型:名称:SERIES_NAME VARCHAR2(200)数字:ONWAY NUMBER标识:FLAG NUMBER(1)日期:DATE_DAY VARCHAR2(20)create table CUSTOMER_COUNT( UPDATE_DATE DATE not null, RSSC_ID VARC...
2018-11-23 16:23:41
2843
1
原创 kafka数据异常记录
上面是kafka中发现的一条数据:其中before和after都是空,导致写入snap表中数据都是null。(2)修改写入snap脚本,过滤掉before和after都是空的数据。其中 第一个链路最稳定,同步到kafka的数据偶尔会出问题。(1)英方软件bug问题,升级新版本。
2026-02-24 15:50:55
142
原创 CDH集群权限管理
YARN的资源池配置CDH中添加Sentry服务CDH节点认证Kerberos登录hiveSentry语法&授权跨项目组合作 使用同一个CDH集群,由于数仓命名 ,权限管理,安全认证等问题需要管控yarn 的队列使用资源,库表DDL、DML、磁盘监控。CDH在数据安全上的处理通常采用 Kerberos+Sentry 的结构。(1)kerberos 主要负责平台用户的认证(用户级别)(2)sentry 则负责平台数据的权限管理(表、字段级别)
2026-02-12 17:47:37
505
原创 oracle常用命令(DBA)
查看是否锁表查询oracle会话数查询oracle会话数(集群)查询oracle最大连接数查询oracle表多少数据量查看ORACLE表结构新增用户删除用户赋权表给用户修改字段类型删除唯一约束复制表结构查询所有用户所属的表空间查询用户和默认表空间的关系。查询当前用户的表查询表空间使用情况。
2026-02-12 11:22:05
596
原创 ODS表数据量比对步骤
(2)写比对脚本(固定数据和最新hive分区数据比对)(1)抽取数据【关键点:凌晨固定数据!第一步:找出差异数据明细。第二步:分析导致差异原因。(2)kafka丢失。第三步:优化比对脚本。第四步:重新发布上线。
2026-02-03 10:42:50
36
原创 SQOOP导入split-by并发问题
月初,通过sqoop把oralce数据导入hive,出现数据丢失的情况,排查下来发现是sqoop抽数期间数据发生了变更导致的。
2025-10-31 09:52:55
151
原创 git重定向
(2)确定自共同祖先(E、F)以来,feature 中每次提交所引入的差异。(4)将 main 分支中的提交应用到当前提交 (A-B-C-D)。A --> B–>C --D MAIN主分支。(5)将 E、F提交引入的改动重新应用到 D 分支之上。(3)从 feature 分支中暂时删除这些提交。E -->F FEATURE分支。实现功能:把MAIN主分支更新的C、D。(1)识别分支的共同祖先 B。
2025-10-15 16:19:17
134
原创 linux连接服务器sftp无法输入中文
登录sftp后, 无法输入中文。把完整路径贴入后发现路径里中文全部被忽略了,手打也打不进去。网上查都说两边编码格式不一致,但是我locale查了之后两边都是en_US.utf-8。通过centos连接目标服务器的sftp,有个文件是中文名称(测试.txt)mget *.txt(下载所有txt结尾的文件)登录sftp后,进入目录指定。通过下载批量文件的形式。
2025-09-01 14:42:15
332
原创 jdbc连接hive/impala
注意事项:选取Impala Daemon的IP地址。注意事项:选取HiveServer2的IP地址。#1通过beeline。
2024-05-10 13:27:28
531
1
原创 hive源数据字段长度问题
COLLATE utf8_bin NULL COMMENT ‘项目配置内容(JSON格式)’;1:修改表中TABLE_PARAMS表 PARAM_VALUE字段的varchar长度。一、hive中创建表时TBLPROPERTIES中的长度问题。二、autoflow报错,提示字段长度不足。
2024-05-06 17:16:52
973
1
原创 yarn常用命令行
hdfs没有足够的空间,进一步分析是cdh某个节点挂掉了。导致flink连接不上,获取不到资源!##获取application日志。##修改hdfs日志的读写权限。##杀掉application。##获取container日志。##查看当前运行的应用。##获取文件最后1万行。##获取文件前1万行。
2024-04-09 10:05:48
523
原创 数据比对步骤
1,寻找差异字段的原因?(修正自己逻辑,修正宽表逻辑)3,把有差异的行数,逐个排查分析,举例说明!1,翻译代码写完(中台生成dws结果)2,oracle结果导入CDH数据中台。4,形成比对报告文档,开会确认!2,寻找行数差异的原因?3,编写比对SQL脚本。
2024-04-07 14:58:25
252
原创 关闭Firefox自动更新及更新提醒
找到distribution目录,在其下创建文件policies.json。右击Firefox,打开Firefox安装目录,
2024-03-29 11:21:16
3227
3
原创 记一次namenode问题修复
背景是CDH集群挂了,重启HDFS组件,namenode一直重启失败!然后重启JournalNode(cdh02/cdh04/cdh05)重启namenode(cdh02/cdh04)重启ZKFC(cdh02/cdh04)##拷贝该节点到剩下两个节点。##查看那个节点没有报错。
2024-03-27 19:32:59
367
原创 CDH中重装Kafka
之前测试集群kafka安装在01、02、04节点,但是01节点经常宕机,于是直接在CM页面上把01节点上的kafka broker手动删除了。然后重新再03节点安装了新的kafka broker。于是kafka集群不能使用了!(2)删除Zookeeper的数据。(1)删除data文件数据。##初始化kafka。
2024-03-21 14:43:49
858
原创 substr函数踩坑
impala中使用substr截取前几位字符时一定要从序号1开始!##hive和impala的substr函数比对。###impala中substr函数使用。###在hive中substr函数使用。
2024-03-09 16:02:42
500
原创 FlinkSQL 解析字符串+行转列
近期遇到一个实时flinksql需求,需要根据ids数组字段解析成名称数组字段。。。其中parent_path存放的内容是点号分割的字符串"1659077318807721985.1659120595539924993.1659121050219255810"
2023-07-06 16:02:15
2415
4
原创 pyodps配置问题
使用pyodps运行SQL语句,在测试环境中能执行出结果,在生产环境反复执行就是没有结果,无奈求助dataworks大佬,这才发现是hive兼容模式的问题,导致日期解析出错!!!opds添加代码--打开MaxCompute 2.0数据类型set odps.sql.type.system.odps2=true; --打开Decimal 2.0数据类型set odps.sql.decimal.odps2=true; --Hive兼容模式set odps.sql.hive.compatible
2021-08-26 19:29:37
1726
1
原创 虚拟机docker安装kafka
准备工作:如果是虚拟机,调整网络为桥接模式第一部分:安装zookeeper和kafka#下载docker镜像docker pull docker.io/wurstmeister/zookeeperdocker pull docker.io/wurstmeister/kafka:2.12-2.1.0#安装docker镜像docker run -d --name zookeeper --net=host -p 2181:2181 wurstmeister/zookeeperdocker ru
2021-08-18 11:03:21
743
原创 centos7安装docker
提前安装好Centos7docker分为两个分支版本: Docker CE社区免费版、Docker EE企业版Device Mapper软件包$ ls -l /sys/class/misc/device-mapperlrwxrwxrwx 1 root root 0 May 1 20:55 /sys/class/misc/device-mapper -> ../../devices/virtual/misc/device-mapper#如果没有检测到Device Mapper,需要安装dev
2021-08-13 09:28:32
260
原创 mysql常用方法
时间函数:select curdate(); --获取当前日期select last_day(curdate()); --获取当月最后一天。select DATE_ADD(curdate(),interval -day(curdate())+1 day); --获取本月第一天select date_add(curdate()-day(curdate())+1,interval 1 month); -- 获取下个月的
2021-08-11 17:23:34
182
原创 阿里云ODPS使用to_char()报错
执行SQL语句:select to_char(from_unixtime(cast(1622628854384/1000 as BIGINT)),'yyyymmdd');报错信息如下:FAILED: ODPS-0130071:[1,8] Semantic analysis exception - function to_char cannot match any overloaded functions with (STRING, STRING), candidates are STRING TO_
2021-07-29 15:36:17
2682
原创 DataGrip使用汇总
#获取mysql表字段信息及注释SELECT COLUMN_NAME 列名, COLUMN_TYPE 数据类型, DATA_TYPE 字段类型, CHARACTER_MAXIMUM_LENGTH 长度, IS_NULLABLE 是否为空, COLUMN_DEFAULT 默认值, COLUMN_COMMENT 备注 FROM INFORMATION_SCHEMA.COLUMNSwheretable_schema ='dev_db' AND table_name =
2021-07-26 12:40:37
659
1
原创 阿里云odps SQL
odps官方网站使用示例:#使用TO_DATEselect *from xx_bi.dwd_bi_wide_order_pay_record_detail_di where ds='20210711'and payment_time between TO_DATE('2021-07-09 00:00:00','yyyy-mm-dd hh:mi:ss') and TO_DATE('2021-07-09 23:59:59','yyyy-mm-dd hh:mi:ss')#使用to_charsel
2021-07-13 11:22:44
864
原创 sqlalchemy使用(python)
sqlalchemy 查询SQL:#/usr/bin/env python#coding:utf-8from sqlalchemy import create_engine,textengine = create_engine("mysql+pymysql://dbname:dbpassword@ip:3306/db?charset=utf8",encoding="utf-8",echo=True)conn = engine.connect()text_sql='show index from
2021-07-08 12:59:35
450
原创 SQL正则表达式
筛选出custom_id中全部是数字:select * from om_order where custom_id rlike '^\\d+$' ;
2021-07-05 16:57:36
1675
原创 hologres常用语句
Holo行转列的实现#Holo行转列的实现SELECT regexp_split_to_table('a,s,d,f,g',',');
2021-07-05 09:26:22
1401
原创 PostgreSQL数据库使用
锁表解锁步骤:#查询是否有锁表select relation::regclass, * from pg_locks where not granted;#查询锁表的oidselect oid from pg_class where relname='可能锁表了的表'#查询锁表的pidselect pid from pg_locks where relation='上面查出的oid'#释放锁定的表select pg_cancel_backend(上面查到的pid)...
2021-07-01 16:19:27
245
原创 Hive解析json格式字段
新建hive表create external table asmp.json_test(id string,info string)row format delimited fields terminated by '\t' lines terminated by '\n'location 'hdfs://nameservice1/user/asmp/json_test'插入数据1 [{"name":"Tom","city":"Beijing"},{"name":"Jack", "city
2021-03-18 17:11:57
702
原创 核对发票数据过程
前两天发票逻辑变动,需要去掉part_code重复的经销商数据,具体做法如下:(1)生成一张去掉重复的经销商表clean_tm_sst(2)计算发票的逻辑关联这张表---------------------------漫长的核对过程------------------------------(1)初步核对:获取重复的part_code对应的经销商代码,然后到结果表中查询是否筛选成功(2)核对发票金额是否一致:由于是两年前的逻辑,核对过程就像是回忆过去经历。首先从数据库中拉取某家经销商2月份的
2021-03-03 14:47:42
1148
大数据及其常用组件介绍
2018-11-06
window平台 ncat工具
2018-03-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅