BigDataLee-CSDN博客

原创 15个mysql dba常用脚本

1：显示数据库版本信息：SELECT @@version;2：显示数据库实例信息：SHOW VARIABLES LIKE "%version%";3：显示数据库表空间使用情况：SELECT table_schema AS "Database", SUM(data_length + index_length) / 1024 / 1024 AS "Size (MB)" FROM information_schema.tables GROUP BY table_schema;4：显示数据库连接信息：SHOW PR

2024-07-18 16:51:31 286

原创火山中台的使用

3）输入任务名称dwd_action_exam_detail_df，任务描述填写”将ODS和DIM数据加工写入到DWD"，确认无误，点击确定**。此时，即可将dwd_action_exam_detail_df及其所有的下游任务dwm任务，进行整体回溯，确认输入信息无误，点击下一步。2）配置依赖关系，点击手动依赖，输入关键词dwd，找到dwd_action_exam_detail_df作为依赖。4）配置任务信息，将dwd层数据计算写入到dwm层表dwm.dwm_action_exam_summary_df。

2024-06-04 17:10:24 398

原创 dataworks常用参数

-设置备份数据的保留天数。--查看当前项目内的表和处于备份状态的表信息，包括表名、表ID、创建时间和删除时间等，与show tables;--查看已删除表的备份数据，获取保留周期内备份的各个数据版本信息。--查看指定表的备份数据，获取保留周期内备份的各个数据版本信息。--恢复已删除的表。## 查看项目数据类型版本。

2023-12-12 10:47:32 853

原创 SQL语句性能优化常用策略

’，是会使用索引的；默认新增SQL有事务控制，导致每条都需要事务开启和事务提交，而批量处理是一次事务开启和提交，效率提升明显，达到一定量级，效果显著，平时看不出来。应尽量避免在 WHERE 子句中对字段进行 NULL 值判断，创建表时 NULL 是默认值，但大多数时候应该使用 NOT NULL，或者使用一个特殊的值，如 0，-1 作为默认值。否则考虑单字段索引；查询缓冲并不自动处理空格，因此，在写 SQL 语句时，应尽量减少空格的使用，尤其是在 SQL 首和尾的空格（因为查询缓冲并不自动截取首尾空格）。

2023-12-11 16:00:14 1333 1

原创 Hive大厂面试真题

3、当多次使用 concatenate 后文件数量不在变化，这个跟参数mapreduce.input.fileinputformat.split.minsize=256mb 的设置有关，可设定每。hive 中的分区函数 distribute by 正好是控制 MR 中 partition 分区的，可以。1. ORC 文件是自描述的，它的元数据使用 Protocol Buffers 序列化，并且。reduce 的个数决定了输出的文件的个数，所以可以调整 reduce 的个数控制 hive。

2023-08-23 21:04:24 65

原创 Mapreduce文档总结

redurce中融入sort排序，会产生一个内部有序，外部无序的文件，然后进行归并（相当当于会产生一次IO）, 然后再通过IO逐行读取，每读取一次调用一次 redurce，处理过程是出于阻塞状态，然后处理完再读取第二次，也就是相当于调用一次IO就可以处理完所有的数据。计算过程：切片以记录数为单位，输出给map，然后map以 K， V 键值对的形式输出(映射数据集，如：（"男",1），（"女" ,1）)，传输给redurce ,然后 redurce将计算结果累加输出，进程的数量多，反而性能下降。

2023-08-10 19:39:22 92 1

原创 Hbase分布式搭建

0.cn.pool.ntp.org 时间服务器（百度搜索），执行完毕。Zookeeper集群。所以在搭建之前保证hadoop集群和。---安装npc插件，主要用于同步时间。保证集群当中每一台服务器配置文件相同。完全分布式基于hadoop集群和。Zookeeper集群可用。

2023-08-10 19:35:19 80 1

原创 Hadoop核心笔记

注意：手动上传datanode的数据，hdfs是无法识别的，因为namemode主要是接收用户请求的，即通过hdfs来操作数据，而手工输入的是没有告诉namenode的，所以没有办法保存数据。block块是按照默认的block大小划分（3.1.2默认是128M，之前版本默认的是64M）的，而且所有的block文件不一定是放在同一个datanode节点上的。DataNode节点：只有一个任务，即存放数据，在DataNode上存放的时候以block（块）存放在不同的节点上。（学习hadoop最好的一个方式）。

2023-08-10 19:33:20 47 1

原创 Postgre SQL

集成多种异构技术是相当棘手的工作，如果真有那么一样技术可以满足你所有的需求，那么使用该技术就是最佳选择，而不应试图去集成多个组件来重新实现它。成熟的应用可能会用到许许多多的数据组件（功能）：缓存，OLTP，OLAP/批处理/数据仓库，流处理/消息队列，搜索索引，NoSQL/文档数据库，地理数据库，第一次看到惊为天人：用统一的SQL，去访问其他关系数据库，其他NoSQL数据库，HBase，甚至是各种格式的文件，操作系统信息，在线数据集。：PostGIS扩展（杀手锏），内建的几何类型支持，GiST索引。

2023-08-07 21:02:02 36 1

lijin123hh的博客

原创 15个mysql dba常用脚本

原创火山中台的使用

原创 dataworks常用参数

原创 SQL语句性能优化常用策略

原创 Hive大厂面试真题

原创 Mapreduce文档总结

原创 Hbase分布式搭建

原创 Hadoop核心笔记

原创 Postgre SQL

原创 Kafka生产环境的几个重要配置参数

原创数据仓库与数据湖：区别与联系

原创 Flink双流join避坑指南

原创五分钟搞定Flink双流JOIN面试题

原创 Flink CDC 2.0 正式发布，详解核心改进

转载 kafka是如何清理过期数据的？

空空如也

空空如也