lhxsir-CSDN博客

原创 IDEA修改SVN地址

公司的SVN地址改变了（本地项目还没同步）(一) 选中项目，右键Subversion --> RelocateFrom URL路径保持不变（修改To URL为最新路径）(二)选中项目，右键Subversion --> Update Directory勾选Update修改URL为最新的即可。...

2019-01-03 19:43:08 31136 7

原创 oracle常用命令（hive转换）

字段类型：名称：SERIES_NAME VARCHAR2(200)数字：ONWAY NUMBER标识：FLAG NUMBER(1)日期：DATE_DAY VARCHAR2(20)create table CUSTOMER_COUNT( UPDATE_DATE DATE not null, RSSC_ID VARC...

2018-11-23 16:23:41 2843 1

原创 HDFS文件迁移

需求：生产hive表数据同步到预生产hive表。第一步：先查询下活动的NameNode地址。第二步：修复hive分区，清除缓存。

2026-04-16 16:11:55 4

原创英方同步问题汇总

解决方案：修改配置文件，建表时是否忽略主键名。

2026-03-25 17:24:02 22

原创 kafka数据异常记录

上面是kafka中发现的一条数据：其中before和after都是空，导致写入snap表中数据都是null。（2）修改写入snap脚本，过滤掉before和after都是空的数据。其中第一个链路最稳定，同步到kafka的数据偶尔会出问题。（1）英方软件bug问题，升级新版本。

2026-02-24 15:50:55 142

YARN的资源池配置CDH中添加Sentry服务CDH节点认证Kerberos登录hiveSentry语法&授权跨项目组合作使用同一个CDH集群，由于数仓命名，权限管理，安全认证等问题需要管控yarn 的队列使用资源，库表DDL、DML、磁盘监控。CDH在数据安全上的处理通常采用 Kerberos+Sentry 的结构。（1）kerberos 主要负责平台用户的认证（用户级别）（2）sentry 则负责平台数据的权限管理（表、字段级别）

2026-02-12 17:47:37 505

原创 oracle常用命令（DBA）

查看是否锁表查询oracle会话数查询oracle会话数（集群）查询oracle最大连接数查询oracle表多少数据量查看ORACLE表结构新增用户删除用户赋权表给用户修改字段类型删除唯一约束复制表结构查询所有用户所属的表空间查询用户和默认表空间的关系。查询当前用户的表查询表空间使用情况。

2026-02-12 11:22:05 596

原创 HIVE表结构和注释

获取hive表字段和注释。

2026-02-10 18:54:47 61

原创 ODS表数据量比对步骤

（2）写比对脚本（固定数据和最新hive分区数据比对）（1）抽取数据【关键点：凌晨固定数据！第一步：找出差异数据明细。第二步：分析导致差异原因。(2)kafka丢失。第三步：优化比对脚本。第四步：重新发布上线。

2026-02-03 10:42:50 36

原创定时关闭yarn任务脚本

写个小功能：每天晚上定时关闭一些测试的任务！

2025-10-31 16:18:20 139

原创 SQOOP导入split-by并发问题

月初，通过sqoop把oralce数据导入hive，出现数据丢失的情况，排查下来发现是sqoop抽数期间数据发生了变更导致的。

2025-10-31 09:52:55 151

原创 git重定向

（2）确定自共同祖先（E、F）以来，feature 中每次提交所引入的差异。（4）将 main 分支中的提交应用到当前提交 (A-B-C-D)。A --> B–>C --D MAIN主分支。（5）将 E、F提交引入的改动重新应用到 D 分支之上。（3）从 feature 分支中暂时删除这些提交。E -->F FEATURE分支。实现功能：把MAIN主分支更新的C、D。（1）识别分支的共同祖先 B。

2025-10-15 16:19:17 134

原创 linux连接服务器sftp无法输入中文

登录sftp后，无法输入中文。把完整路径贴入后发现路径里中文全部被忽略了，手打也打不进去。网上查都说两边编码格式不一致，但是我locale查了之后两边都是en_US.utf-8。通过centos连接目标服务器的sftp，有个文件是中文名称（测试.txt）mget *.txt（下载所有txt结尾的文件）登录sftp后，进入目录指定。通过下载批量文件的形式。

2025-09-01 14:42:15 332

原创 jdbc连接hive/impala

注意事项：选取Impala Daemon的IP地址。注意事项：选取HiveServer2的IP地址。#1通过beeline。

2024-05-10 13:27:28 531 1

原创 hive源数据字段长度问题

COLLATE utf8_bin NULL COMMENT ‘项目配置内容（JSON格式）’;1：修改表中TABLE_PARAMS表 PARAM_VALUE字段的varchar长度。一、hive中创建表时TBLPROPERTIES中的长度问题。二、autoflow报错，提示字段长度不足。

2024-05-06 17:16:52 973 1

原创 yarn常用命令行

hdfs没有足够的空间，进一步分析是cdh某个节点挂掉了。导致flink连接不上，获取不到资源！##获取application日志。##修改hdfs日志的读写权限。##杀掉application。##获取container日志。##查看当前运行的应用。##获取文件最后1万行。##获取文件前1万行。

2024-04-09 10:05:48 523

原创数据比对步骤

1，寻找差异字段的原因？（修正自己逻辑，修正宽表逻辑）3，把有差异的行数，逐个排查分析，举例说明！1，翻译代码写完（中台生成dws结果）2，oracle结果导入CDH数据中台。4，形成比对报告文档，开会确认！2，寻找行数差异的原因？3，编写比对SQL脚本。

2024-04-07 14:58:25 252

原创每天定时杀spark进程

#每日定时杀手动启动的进程。##编写shell脚本。

2024-04-03 19:29:38 459

原创关闭Firefox自动更新及更新提醒

找到distribution目录，在其下创建文件policies.json。右击Firefox，打开Firefox安装目录，

2024-03-29 11:21:16 3227 3

原创记一次namenode问题修复

背景是CDH集群挂了，重启HDFS组件，namenode一直重启失败！然后重启JournalNode（cdh02/cdh04/cdh05）重启namenode（cdh02/cdh04）重启ZKFC（cdh02/cdh04）##拷贝该节点到剩下两个节点。##查看那个节点没有报错。

2024-03-27 19:32:59 367

原创 CDH中重装Kafka

之前测试集群kafka安装在01、02、04节点，但是01节点经常宕机，于是直接在CM页面上把01节点上的kafka broker手动删除了。然后重新再03节点安装了新的kafka broker。于是kafka集群不能使用了！(2)删除Zookeeper的数据。(1)删除data文件数据。##初始化kafka。

2024-03-21 14:43:49 858

原创 flink启动错误（使用YARN）

#flink启动错误信息。

2024-03-19 14:53:29 753

原创 CDH报错未检测到Java JDK

General Error(s) 主机上未检测到 Java JDK。

2024-03-13 17:18:48 435

原创 substr函数踩坑

impala中使用substr截取前几位字符时一定要从序号1开始！##hive和impala的substr函数比对。###impala中substr函数使用。###在hive中substr函数使用。

2024-03-09 16:02:42 500

原创 spark-sql显示字段名称

cdh6.3.2集群中，使用命令启动spark-sql，执行。

2024-03-08 12:28:24 878

原创 flink sql常用函数

mysql写法：flink sql写法：

2023-07-30 10:44:55 493

原创 FlinkSQL 解析字符串+行转列

近期遇到一个实时flinksql需求，需要根据ids数组字段解析成名称数组字段。。。其中parent_path存放的内容是点号分割的字符串"1659077318807721985.1659120595539924993.1659121050219255810"

2023-07-06 16:02:15 2415 4

原创 pyodps配置问题

使用pyodps运行SQL语句，在测试环境中能执行出结果，在生产环境反复执行就是没有结果，无奈求助dataworks大佬，这才发现是hive兼容模式的问题，导致日期解析出错！！！opds添加代码--打开MaxCompute 2.0数据类型set odps.sql.type.system.odps2=true; --打开Decimal 2.0数据类型set odps.sql.decimal.odps2=true; --Hive兼容模式set odps.sql.hive.compatible

2021-08-26 19:29:37 1726 1

原创虚拟机docker安装kafka

准备工作：如果是虚拟机，调整网络为桥接模式第一部分：安装zookeeper和kafka#下载docker镜像docker pull docker.io/wurstmeister/zookeeperdocker pull docker.io/wurstmeister/kafka:2.12-2.1.0#安装docker镜像docker run -d --name zookeeper --net=host -p 2181:2181 wurstmeister/zookeeperdocker ru

2021-08-18 11:03:21 743

原创 centos7安装docker

提前安装好Centos7docker分为两个分支版本: Docker CE社区免费版、Docker EE企业版Device Mapper软件包$ ls -l /sys/class/misc/device-mapperlrwxrwxrwx 1 root root 0 May 1 20:55 /sys/class/misc/device-mapper -> ../../devices/virtual/misc/device-mapper#如果没有检测到Device Mapper，需要安装dev

2021-08-13 09:28:32 260

原创 mysql常用方法

时间函数：select curdate(); --获取当前日期select last_day(curdate()); --获取当月最后一天。select DATE_ADD(curdate(),interval -day(curdate())+1 day); --获取本月第一天select date_add(curdate()-day(curdate())+1,interval 1 month); -- 获取下个月的

2021-08-11 17:23:34 182

原创阿里云ODPS使用to_char()报错

执行SQL语句：select to_char(from_unixtime(cast(1622628854384/1000 as BIGINT)),'yyyymmdd');报错信息如下：FAILED: ODPS-0130071:[1,8] Semantic analysis exception - function to_char cannot match any overloaded functions with (STRING, STRING), candidates are STRING TO_

2021-07-29 15:36:17 2682

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Apache Kylin操作流程

大数据及其常用组件介绍

window平台 ncat工具

druid数据分析原理与实践

n2n windows端

空空如也