自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(181)
  • 资源 (5)
  • 收藏
  • 关注

原创 IDEA修改SVN地址

公司的SVN地址改变了(本地项目还没同步)(一) 选中项目,右键Subversion --> RelocateFrom URL路径保持不变(修改To URL为最新路径)(二)选中项目,右键Subversion --> Update Directory勾选Update修改URL为最新的即可。...

2019-01-03 19:43:08 31136 7

原创 oracle常用命令(hive转换)

字段类型:名称:SERIES_NAME VARCHAR2(200)数字:ONWAY NUMBER标识:FLAG NUMBER(1)日期:DATE_DAY VARCHAR2(20)create table CUSTOMER_COUNT( UPDATE_DATE DATE not null, RSSC_ID VARC...

2018-11-23 16:23:41 2843 1

原创 HDFS文件迁移

需求:生产hive表数据同步到预生产hive表。第一步:先查询下活动的NameNode地址。第二步:修复hive分区,清除缓存。

2026-04-16 16:11:55 4

原创 英方同步问题汇总

解决方案:修改配置文件,建表时是否忽略主键名。

2026-03-25 17:24:02 22

原创 kafka数据异常记录

上面是kafka中发现的一条数据:其中before和after都是空,导致写入snap表中数据都是null。(2)修改写入snap脚本,过滤掉before和after都是空的数据。其中 第一个链路最稳定,同步到kafka的数据偶尔会出问题。(1)英方软件bug问题,升级新版本。

2026-02-24 15:50:55 142

原创 CDH集群权限管理

YARN的资源池配置CDH中添加Sentry服务CDH节点认证Kerberos登录hiveSentry语法&授权跨项目组合作 使用同一个CDH集群,由于数仓命名 ,权限管理,安全认证等问题需要管控yarn 的队列使用资源,库表DDL、DML、磁盘监控。CDH在数据安全上的处理通常采用 Kerberos+Sentry 的结构。(1)kerberos 主要负责平台用户的认证(用户级别)(2)sentry 则负责平台数据的权限管理(表、字段级别)

2026-02-12 17:47:37 505

原创 oracle常用命令(DBA)

查看是否锁表查询oracle会话数查询oracle会话数(集群)查询oracle最大连接数查询oracle表多少数据量查看ORACLE表结构新增用户删除用户赋权表给用户修改字段类型删除唯一约束复制表结构查询所有用户所属的表空间查询用户和默认表空间的关系。查询当前用户的表查询表空间使用情况。

2026-02-12 11:22:05 596

原创 HIVE表结构和注释

获取hive表字段和注释。

2026-02-10 18:54:47 61

原创 ODS表数据量比对步骤

(2)写比对脚本(固定数据和最新hive分区数据比对)(1)抽取数据【关键点:凌晨固定数据!第一步:找出差异数据明细。第二步:分析导致差异原因。(2)kafka丢失。第三步:优化比对脚本。第四步:重新发布上线。

2026-02-03 10:42:50 36

原创 定时关闭yarn任务脚本

写个小功能:每天晚上定时关闭一些测试的任务!

2025-10-31 16:18:20 139

原创 SQOOP导入split-by并发问题

月初,通过sqoop把oralce数据导入hive,出现数据丢失的情况,排查下来发现是sqoop抽数期间数据发生了变更导致的。

2025-10-31 09:52:55 151

原创 git重定向

(2)确定自共同祖先(E、F)以来,feature 中每次提交所引入的差异。(4)将 main 分支中的提交应用到当前提交 (A-B-C-D)。A --> B–>C --D MAIN主分支。(5)将 E、F提交引入的改动重新应用到 D 分支之上。(3)从 feature 分支中暂时删除这些提交。E -->F FEATURE分支。实现功能:把MAIN主分支更新的C、D。(1)识别分支的共同祖先 B。

2025-10-15 16:19:17 134

原创 linux连接服务器sftp无法输入中文

登录sftp后, 无法输入中文。把完整路径贴入后发现路径里中文全部被忽略了,手打也打不进去。网上查都说两边编码格式不一致,但是我locale查了之后两边都是en_US.utf-8。通过centos连接目标服务器的sftp,有个文件是中文名称(测试.txt)mget *.txt(下载所有txt结尾的文件)登录sftp后,进入目录指定。通过下载批量文件的形式。

2025-09-01 14:42:15 332

原创 jdbc连接hive/impala

注意事项:选取Impala Daemon的IP地址。注意事项:选取HiveServer2的IP地址。#1通过beeline。

2024-05-10 13:27:28 531 1

原创 hive源数据字段长度问题

COLLATE utf8_bin NULL COMMENT ‘项目配置内容(JSON格式)’;1:修改表中TABLE_PARAMS表 PARAM_VALUE字段的varchar长度。一、hive中创建表时TBLPROPERTIES中的长度问题。二、autoflow报错,提示字段长度不足。

2024-05-06 17:16:52 973 1

原创 yarn常用命令行

hdfs没有足够的空间,进一步分析是cdh某个节点挂掉了。导致flink连接不上,获取不到资源!##获取application日志。##修改hdfs日志的读写权限。##杀掉application。##获取container日志。##查看当前运行的应用。##获取文件最后1万行。##获取文件前1万行。

2024-04-09 10:05:48 523

原创 数据比对步骤

1,寻找差异字段的原因?(修正自己逻辑,修正宽表逻辑)3,把有差异的行数,逐个排查分析,举例说明!1,翻译代码写完(中台生成dws结果)2,oracle结果导入CDH数据中台。4,形成比对报告文档,开会确认!2,寻找行数差异的原因?3,编写比对SQL脚本。

2024-04-07 14:58:25 252

原创 每天定时杀spark进程

#每日定时杀手动启动的进程。##编写shell脚本。

2024-04-03 19:29:38 459

原创 关闭Firefox自动更新及更新提醒

找到distribution目录,在其下创建文件policies.json。右击Firefox,打开Firefox安装目录,

2024-03-29 11:21:16 3227 3

原创 记一次namenode问题修复

背景是CDH集群挂了,重启HDFS组件,namenode一直重启失败!然后重启JournalNode(cdh02/cdh04/cdh05)重启namenode(cdh02/cdh04)重启ZKFC(cdh02/cdh04)##拷贝该节点到剩下两个节点。##查看那个节点没有报错。

2024-03-27 19:32:59 367

原创 CDH中重装Kafka

之前测试集群kafka安装在01、02、04节点,但是01节点经常宕机,于是直接在CM页面上把01节点上的kafka broker手动删除了。然后重新再03节点安装了新的kafka broker。于是kafka集群不能使用了!(2)删除Zookeeper的数据。(1)删除data文件数据。##初始化kafka。

2024-03-21 14:43:49 858

原创 flink启动错误(使用YARN)

#flink启动错误信息。

2024-03-19 14:53:29 753

原创 CDH报错未检测到Java JDK

General Error(s) 主机上未检测到 Java JDK。

2024-03-13 17:18:48 435

原创 substr函数踩坑

impala中使用substr截取前几位字符时一定要从序号1开始!##hive和impala的substr函数比对。###impala中substr函数使用。###在hive中substr函数使用。

2024-03-09 16:02:42 500

原创 spark-sql显示字段名称

cdh6.3.2集群中,使用命令启动spark-sql,执行。

2024-03-08 12:28:24 878

原创 flink sql常用函数

mysql写法:flink sql写法:

2023-07-30 10:44:55 493

原创 FlinkSQL 解析字符串+行转列

近期遇到一个实时flinksql需求,需要根据ids数组字段解析成名称数组字段。。。其中parent_path存放的内容是点号分割的字符串"1659077318807721985.1659120595539924993.1659121050219255810"

2023-07-06 16:02:15 2415 4

原创 pyodps配置问题

使用pyodps运行SQL语句,在测试环境中能执行出结果,在生产环境反复执行就是没有结果,无奈求助dataworks大佬,这才发现是hive兼容模式的问题,导致日期解析出错!!!opds添加代码--打开MaxCompute 2.0数据类型set odps.sql.type.system.odps2=true; --打开Decimal 2.0数据类型set odps.sql.decimal.odps2=true; --Hive兼容模式set odps.sql.hive.compatible

2021-08-26 19:29:37 1726 1

原创 虚拟机docker安装kafka

准备工作:如果是虚拟机,调整网络为桥接模式第一部分:安装zookeeper和kafka#下载docker镜像docker pull docker.io/wurstmeister/zookeeperdocker pull docker.io/wurstmeister/kafka:2.12-2.1.0#安装docker镜像docker run -d --name zookeeper --net=host -p 2181:2181 wurstmeister/zookeeperdocker ru

2021-08-18 11:03:21 743

原创 centos7安装docker

提前安装好Centos7docker分为两个分支版本: Docker CE社区免费版、Docker EE企业版Device Mapper软件包$ ls -l /sys/class/misc/device-mapperlrwxrwxrwx 1 root root 0 May 1 20:55 /sys/class/misc/device-mapper -> ../../devices/virtual/misc/device-mapper#如果没有检测到Device Mapper,需要安装dev

2021-08-13 09:28:32 260

原创 mysql常用方法

时间函数:select curdate(); --获取当前日期select last_day(curdate()); --获取当月最后一天。select DATE_ADD(curdate(),interval -day(curdate())+1 day); --获取本月第一天select date_add(curdate()-day(curdate())+1,interval 1 month); -- 获取下个月的

2021-08-11 17:23:34 182

原创 阿里云ODPS使用to_char()报错

执行SQL语句:select to_char(from_unixtime(cast(1622628854384/1000 as BIGINT)),'yyyymmdd');报错信息如下:FAILED: ODPS-0130071:[1,8] Semantic analysis exception - function to_char cannot match any overloaded functions with (STRING, STRING), candidates are STRING TO_

2021-07-29 15:36:17 2682

原创 DataGrip使用汇总

#获取mysql表字段信息及注释SELECT COLUMN_NAME 列名, COLUMN_TYPE 数据类型, DATA_TYPE 字段类型, CHARACTER_MAXIMUM_LENGTH 长度, IS_NULLABLE 是否为空, COLUMN_DEFAULT 默认值, COLUMN_COMMENT 备注 FROM INFORMATION_SCHEMA.COLUMNSwheretable_schema ='dev_db' AND table_name =

2021-07-26 12:40:37 659 1

原创 阿里云odps SQL

odps官方网站使用示例:#使用TO_DATEselect *from xx_bi.dwd_bi_wide_order_pay_record_detail_di where ds='20210711'and payment_time between TO_DATE('2021-07-09 00:00:00','yyyy-mm-dd hh:mi:ss') and TO_DATE('2021-07-09 23:59:59','yyyy-mm-dd hh:mi:ss')#使用to_charsel

2021-07-13 11:22:44 864

原创 sqlalchemy使用(python)

sqlalchemy 查询SQL:#/usr/bin/env python#coding:utf-8from sqlalchemy import create_engine,textengine = create_engine("mysql+pymysql://dbname:dbpassword@ip:3306/db?charset=utf8",encoding="utf-8",echo=True)conn = engine.connect()text_sql='show index from

2021-07-08 12:59:35 450

原创 SQL正则表达式

筛选出custom_id中全部是数字:select * from om_order where custom_id rlike '^\\d+$' ;

2021-07-05 16:57:36 1675

原创 hologres常用语句

Holo行转列的实现#Holo行转列的实现SELECT regexp_split_to_table('a,s,d,f,g',',');

2021-07-05 09:26:22 1401

原创 PostgreSQL数据库使用

锁表解锁步骤:#查询是否有锁表select relation::regclass, * from pg_locks where not granted;#查询锁表的oidselect oid from pg_class where relname='可能锁表了的表'#查询锁表的pidselect pid from pg_locks where relation='上面查出的oid'#释放锁定的表select pg_cancel_backend(上面查到的pid)...

2021-07-01 16:19:27 245

原创 Hive解析json格式字段

新建hive表create external table asmp.json_test(id string,info string)row format delimited fields terminated by '\t' lines terminated by '\n'location 'hdfs://nameservice1/user/asmp/json_test'插入数据1 [{"name":"Tom","city":"Beijing"},{"name":"Jack", "city

2021-03-18 17:11:57 702

原创 核对发票数据过程

前两天发票逻辑变动,需要去掉part_code重复的经销商数据,具体做法如下:(1)生成一张去掉重复的经销商表clean_tm_sst(2)计算发票的逻辑关联这张表---------------------------漫长的核对过程------------------------------(1)初步核对:获取重复的part_code对应的经销商代码,然后到结果表中查询是否筛选成功(2)核对发票金额是否一致:由于是两年前的逻辑,核对过程就像是回忆过去经历。首先从数据库中拉取某家经销商2月份的

2021-03-03 14:47:42 1148

Apache Kylin操作流程

Apache Kylin操作流程截图分享,及配套文字讲解,仅做参考。

2018-06-27

大数据及其常用组件介绍

本TTP为大数据及其常用组件的基本介绍(hdfs hive hbase kafka spark kudu impala kylin streamsets)仅供参考。

2018-11-06

window平台 ncat工具

windows平台下ncat工具,Netcat用于从TCP/UDP连接中读取或发送网络数据。(使用方法:ncat.exe -l -k -p 6666)

2018-03-26

druid数据分析原理与实践

Druid实时大数据分析原理与实践.pdf 高清,欧阳辰,数据仓库架构必备。

2019-06-25

n2n windows端

该文件对应csdn博客(n2n内网穿透搭建)中n2n本地服务器的windows端应用程序使用,请配套使用。

2018-05-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除