自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 Sqoop同步clob字段数据问题

sqoop同步

2024-03-15 14:48:20 341

原创 宝塔面板安装docker问题

宝塔面板安装docker失败

2024-03-05 15:29:37 513 4

原创 dataX同步ck数据至hive分区表

datax数据同步增量数据进hive分区表

2024-01-08 16:10:12 593

原创 Superset数据集统计

superset数据集统计

2023-11-27 17:24:17 489

转载 CloudCanal延迟问题处理

CloudCanal社区版默认延迟由于源端实例没有任何变更而显示延迟问题,按惯性思维,容易误解为数据库同步异常有延迟,延迟实则表示mysql源库binlog从上次未有变化到现在的时间。

2023-09-04 18:11:20 613

原创 全量和增量同步合并问题

如淘宝交易订单表,每天新增、变更的增量数据多达几亿条,历史累计至今的全量数据则有几百亿条,面对如此庞大的数据量,如果每天从业务系统全量同步显然是不可能的 可行的方式是同步当天的增量数据,并与数据仓库中的前一天全量数据合并,获得截至当天的最新全量数据。另外,当业务系统的表有物理删除数据的操作,而数据仓库需要保留所有历史数据时,也可以选择这种方式,在数据仓库中永久保留最新全量数据快照 下面我们以淘宝订单表的具体实例来说明。数据较原有student的表,数据有新增也有修改。现有学生表student_temp。

2023-08-03 11:24:29 345

原创 如何理解ODS层

首先确保数据不遗漏,根据log_time分别冗余前一天最后15分钟的数据和后一天凌晨开始15分钟的数据,并用modified_time过滤非当天数据,此时会过滤掉一部分后一天凌晨开始15分钟的数据,但是还是会冗余一部分前一天的数据,由于log数据保存了多个状态的数据,所以还需要根据log_time进行降序排列,获取最新状态的记录,这样就去掉了中间状态的数据。上文提到ODS的数据来源于业务系统,且ODS落地的系统通常和业务系统是不同的,比如常见的将数据落到Hive中。该类ODS层的表是最容易维护的。

2023-08-01 15:12:09 283

原创 group concat函数应用

group_concat用法

2023-02-21 00:14:08 81

原创 flink on yarn模式下flinksql使用hive_catalog

flink on yarn 添加hive catalog

2023-02-01 12:05:43 377 1

原创 集群搭建atlas集成hive元数据时报错

atlas集成hive导入元数据报错

2022-11-21 23:37:06 985

原创 集群安装hive修改元数据库存储报错

初始化 Hive 元数据库报错

2022-11-21 00:00:58 719

原创 navicat 15 连接VM中Mysql报错问题

navicat 15 连接VM中Mysql报错问题

2022-10-26 23:55:43 885

原创 重载与重写

重载与重写

2022-10-24 22:33:17 242

原创 sqoop同步oracle数据至hive分区表问题

sqoop同步oracle数据进hive分区表问题

2022-10-24 16:11:57 486

原创 SQL优化思路

有关SQL优化

2022-10-12 19:09:05 376

原创 数仓指标体系构建

数仓指标体系构建

2022-10-09 21:55:06 201

原创 HIVE版本查看

查看hive版本

2022-08-22 16:23:22 7465 1

原创 Dbeaver无法正常启动

Dbeaver发生错误,请参阅日志

2022-07-18 15:21:59 5456 2

原创 类的实例方法、静态方法和类方法区别(python)

类的实例方法、静态方法和类方法区别(python)

2022-04-26 15:57:34 290

原创 azkaban调度出现$’\r’: command not found

项目场景:Azkaban调度问题描述:Azkaban调度shell脚本报错:$’\r’: command not found原因分析:原因是Windows下的空行,需要把文件转成unix解决方案:Centos下,执行yum install dos2unix,然后dos2unix [file],再执行shell命令或者直接使用notepad++在右下角将Windows改为unix格式...

2022-01-27 18:10:43 522

原创 SQL中with as用法

WITH AS短语,也叫做子查询部分,定义一个SQL片断后,该SQL片断可以被整个SQL语句所用到。有的时候,with as是为了提高SQL语句的可读性,减少嵌套冗余。with A as ( select * from user) select * from A, customer where customer.userid = user.id**先执行select * from user把结果放到一个临时表A中,作为全局使用。with as的用法可以通俗点讲是,讲需要频繁

2021-07-12 15:03:11 27824

转载 myisam和innodb区别

MyISAM 和InnoDB 讲解  InnoDB和MyISAM是许多人在使用MySQL时最常用的两个表类型,这两个表类型各有优劣,视具体应用而定。基本的差别为:MyISAM类型不支持事务处理等高级处理,而InnoDB类型支持。MyISAM类型的表强调的是性能,其执行数度比InnoDB类型更快,但是不提供事务支持,而InnoDB提供事务支持以及外部键等高级数据库功能。以下是一些细节和具体实现的差别:◆1.InnoDB不支持FULLTEXT类型的索引。◆2.InnoDB 中不保存表的具体行数,也就是说

2021-07-05 22:22:44 558

原创 Spark整合Hive异常

问题描述:在IDEA中Spark整合hive报异常Unable to instantiate SparkSession with Hive support because Hive classes are not found val spark = SparkSession.builder().appName("SparkSQLOps").master("local[*]") .enableHiveSupport() .getOrCreate spark.sql("show tab

2021-07-01 11:25:54 320

原创 大数据之kafka

Kafka旨在提供三大特性:1.提供一套API实现生产者和消费者2.降低网络传输和磁盘存储开销3.实现高伸缩性架构概述定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域消息队列MQ传统应用场景之异步处理使用消息队列的好处1)解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所 以即使一个处理消息的进

2021-06-24 11:24:43 358

原创 MySQL事务相关

事务事务由单独单元的一个或多个SQL语句组成,在这个单元中,每个MySQL语句是相互依赖的。而整个单独单元作为一个不可分割的整体,如果单元中某条SQL语句一 旦执行失败或产生错误,整个单元将会回滚。所有受到影响的数据将返回到事物开始以前的状态;如果单元中的所有SQL语句均执行成功,则事物被顺利执行。事务的ACID 原子性(Atomicity) 原子性是指事务是一个不可分割的工作单位,事务中的操作要么 都发生,要么都不发生。 一致性(Consistency) 事务必须使数据库.

2021-06-17 21:35:44 88

原创 MySQL相关

Mysql相关概念及理解一、数据库的好处1、可以持久化数据到本地2、结构化查询二、数据库的常见概念1、DB:数据库,存储数据的容器2、DBMS:数据库管理系统,又称为数据库软件或数据库产品,用于创建或管理DB3、SQL:结构化查询语言,用于和数据库通信的语言,不是某个数据库软件特有的,而是几乎所有的主流数据库软件通用的语言三、数据库存储数据的特点1、数据存放到表中,然后表再放到库中2、一个库中可以有多张表,每张表具有唯一的表名用来标识自己3、表中有一个或多个列,列又称为“字段”,相当于

2021-06-15 08:58:34 92

原创 计算机基础之操作系统(一)

操作系统 [王道]基本概念操作系统是指控制和管理整个计算机系统的硬件和软件资源,并合理地组织调度计算机的工作和资源分配,以提供给其他软软件方便的接口和环境,是计算机中最基本的系统软件。从用户的角度定义:操作系统是一个控制软件是系统最基本最核心的软件,属于系统软件控制和管理整个计算机的硬件和软件资源合理的组织、调度计算机的工作与资源的分配为用户和其它软件提供方便的接口和环境功能和目标作为计算机系统资源的管理者处理器(CPU)管理在多道程序环境下,cpu的分配和运行都以进程(或线程)为

2021-05-06 19:55:00 102

原创 大数据入门之Zookeeper相关

Zookeeper相关简介Zookeeper是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。Zookeeper相当于一个文件系统加上通知机制特点Zookeeper:一个领导者(Leader,多个跟随者(Follower组成的集群。集群中只要有半数以上节点存活,Zookeeper集群就能正常服务。全局数据一致:每个Serve

2021-05-05 20:18:08 112

原创 大数据入门(一)

第一章 简介概念:海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合。特征:4v;a. Volume:巨大的数据量 b. Variety:数据类型多样化 --(1):结构化的数据 即有固定格式和有限长度的数据。 --(2):半结构化的数据 是一些XML或者HTML的格式的数据。 --(3):非结构化的数据 现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页、语音,视 频等。 c. Veloci.

2021-04-22 20:37:45 103

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除