自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 15个mysql dba常用脚本

1:显示数据库版本信息:SELECT @@version;2:显示数据库实例信息:SHOW VARIABLES LIKE "%version%";3:显示数据库表空间使用情况:SELECT table_schema AS "Database", SUM(data_length + index_length) / 1024 / 1024 AS "Size (MB)" FROM information_schema.tables GROUP BY table_schema;4:显示数据库连接信息:SHOW PR

2024-07-18 16:51:31 286

原创 火山中台的使用

3)输入任务名称dwd_action_exam_detail_df,任务描述填写”将ODS和DIM数据加工写入到DWD",确认无误,点击确定**。此时,即可将dwd_action_exam_detail_df及其所有的下游任务dwm任务,进行整体回溯,确认输入信息无误,点击下一步。2)配置依赖关系,点击手动依赖,输入关键词dwd,找到dwd_action_exam_detail_df作为依赖。4)配置任务信息,将dwd层数据计算写入到dwm层表dwm.dwm_action_exam_summary_df。

2024-06-04 17:10:24 397

原创 dataworks常用参数

-设置备份数据的保留天数。--查看当前项目内的表和处于备份状态的表信息,包括表名、表ID、创建时间和删除时间等,与show tables;--查看已删除表的备份数据,获取保留周期内备份的各个数据版本信息。--查看指定表的备份数据,获取保留周期内备份的各个数据版本信息。--恢复已删除的表。## 查看项目数据类型版本。

2023-12-12 10:47:32 849

原创 SQL语句性能优化常用策略

’,是会使用索引的;默认新增SQL有事务控制,导致每条都需要事务开启和事务提交,而批量处理是一次事务开启和提交,效率提升明显,达到一定量级,效果显著,平时看不出来。应尽量避免在 WHERE 子句中对字段进行 NULL 值判断,创建表时 NULL 是默认值,但大多数时候应该使用 NOT NULL,或者使用一个特殊的值,如 0,-1 作为默认值。否则考虑单字段索引;查询缓冲并不自动处理空格,因此,在写 SQL 语句时,应尽量减少空格的使用,尤其是在 SQL 首和尾的空格(因为查询缓冲并不自动截取首尾空格)。

2023-12-11 16:00:14 1333 1

原创 Hive大厂面试真题

3、当多次使用 concatenate 后文件数量不在变化,这个跟参数mapreduce.input.fileinputformat.split.minsize=256mb 的设置有关,可设定每。hive 中的分区函数 distribute by 正好是控制 MR 中 partition 分区的,可以。1. ORC 文件是自描述的,它的元数据使用 Protocol Buffers 序列化,并且。reduce 的个数决定了输出的文件的个数,所以可以调整 reduce 的个数控制 hive。

2023-08-23 21:04:24 65

原创 Mapreduce文档总结

redurce中融入sort排序,会产生一 个内部有序,外部无序的文件,然后进行归并(相当当于会产生一次IO), 然后再通过IO逐行读取,每读取一次调用一次 redurce,处理过程是出于阻塞状态,然后处理完再读取第二次,也就是相当于调 用一次IO就可以处理完所有的数据。计算过程: 切片以记录数为单位, 输出给map,然后map以 K, V 键值对 的形式输出(映射数据集,如:("男",1),("女" ,1)),传输给redurce ,然后 redurce将计算结果累加输出,进程的数量多,反而性能 下降。

2023-08-10 19:39:22 92 1

原创 Hbase分布式搭建

0.cn.pool.ntp.org 时间服务器(百度搜索),执行完毕。Zookeeper集群。所以在搭建之前保证hadoop集群和。---安装npc插件,主要用于同步时间。保证集群当中每一台服务器配置文件相同。完全分布式基于hadoop集群和。Zookeeper集群可用。

2023-08-10 19:35:19 80 1

原创 Hadoop核心笔记

注意:手动上传datanode的数据,hdfs是无法识别的,因为namemode主要是接收用户请求的,即通过hdfs来操作数据,而手工输入的是没有告诉namenode的,所以没有办法保存数据。block块是按照默认的block大小划分(3.1.2默认是128M,之前版本默认的是64M)的,而且所有的block文件不一定是放在同一个datanode节点上的。DataNode节点:只有一个任务,即存放数据,在DataNode上存放的时候以block(块)存放在不同的节点上。(学习hadoop最好的一个方式)。

2023-08-10 19:33:20 47 1

原创 Postgre SQL

集成多种异构技术是相当棘手的工作,如果真有那么一样技术可以满足你所有的需求,那么使用该技术就是最佳选择,而不应试图去集成多个组件来重新实现它。成熟的应用可能会用到许许多多的数据组件(功能):缓存,OLTP,OLAP/批处理/数据仓库,流处理/消息队列,搜索索引,NoSQL/文档数据库,地理数据库,第一次看到惊为天人:用统一的SQL,去访问其他关系数据库,其他NoSQL数据库,HBase,甚至是各种格式的文件,操作系统信息,在线数据集。:PostGIS扩展(杀手锏),内建的几何类型支持,GiST索引。

2023-08-07 21:02:02 36 1

原创 Kafka生产环境的几个重要配置参数

本文主要分享了Kafka几个比较重要的配置参数,并对每个参数进行了详细解释,通过配置这些参数,可以充分发挥Kafka的优良特性。希望本文对你有所帮助。

2023-08-02 09:35:59 286

原创 数据仓库与数据湖:区别与联系

对于不熟悉或者刚接触大数据不久的人来说,当听到数据湖这个概念时,可能会感到非常的困惑。数据仓库,其实本质上两者都是企业用来管理不同类型格式数据的方式,以此洞察数据,辅助决策。本文主要探讨两个概念,对数据仓库和数据湖进行对比分析,希望对你有所帮助。关于什么是数据仓库,成为了一个老生常谈的问题。既然是要对比,那还是要说明一下究竟什么是数据仓库?我们先抛开所有关于大数据技术相关的内容,说一下为什么会出现数据仓。到了20世纪80年代以后,基于关系型数据库的事务处理成为了企业IT应用的主流。

2023-07-31 10:27:25 202 1

原创 Flink双流join避坑指南

在开发一个流式应用的时候,我们会经常用到两种JOIN类型,其一是维表JOIN,另外一种就是双流JOIN。关于维表JOIN,一般使用,即加上,表示JOIN维表当前时刻所看到的每条数据。维表是一张不断变化的表,在维表JOIN时,需指明该条记录关联维表快照的时刻。对于双流JOIN,一般经常用到的有LEFT JOIN和INNER JOIN,本文将重点介绍这两种JOIN方式。在使用双流JOIN的时候,要看具体的场景,不然会产生很多中间态的脏数据。

2023-07-31 10:12:18 465 2

原创 五分钟搞定Flink双流JOIN面试题

在实际的开发中,JOIN操作是我们经常使用的。JOIN的本质是数据拼接,由于我们无法将所有的数据都存储到一张表中,所以也就有了JOIN操作,JOIN操作可以很方便地根据需要将不同表的数据拼接在一起。本文总结了Flink双流JOIN的常见面试题,希望对你有所帮助。

2023-07-31 10:08:59 279

原创 Flink CDC 2.0 正式发布,详解核心改进

CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。

2023-07-15 10:47:43 319 1

转载 kafka是如何清理过期数据的?

了解kafka的数据清理

2023-06-20 21:04:32 728 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除