自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

运维仙人

我们正在从DT时代迈向DA时代,大数据和人工智能结合产生的力量将影响深远,我们应该勇敢拥抱变化

  • 博客(168)
  • 资源 (8)
  • 收藏
  • 关注

原创 大数据StarRocks(十):Catalog 授权 (1)

授权用户访问Catalog的核心是通过GRANT语句分配USAGE(基础访问)、CREATE(创建数据库)等权限,可直接授权给用户或通过角色批量管理。操作后需验证权限是否生效,确保用户能正常使用Catalog。

2025-11-07 01:31:22 792

原创 Hadoop、Kafka、Flink、Spark、Hive五大组件运维常用操作命令

本文整理了Hadoop、Kafka等大数据组件的核心运维命令,涵盖集群管理、状态监控和故障处理。Hadoop部分包括HDFS/YARN的启停、文件操作、任务管理和健康检查;Kafka部分聚焦主题管理、消息消费、偏移量重置等常见操作。所有命令均基于主流稳定版本,适用于日常运维场景,帮助开发者快速定位和解决集群问题。(149字)

2025-11-03 08:43:31 950

原创 多模态数据湖对接 AI 训练的技术方案

数据湖为多模态AI训练提供统一存储和管理方案,支持文本、图像、音频、视频等多种数据格式的整合。通过分层存储优化成本与性能,热存储用于高频访问数据,冷存储处理历史数据。数据湖具备多模态数据治理能力,包括元数据管理、数据清洗和标注工具集成,确保训练数据质量。此外,支持增量数据供给和版本控制,实现AI模型的持续训练优化。通过与TensorFlow/PyTorch等AI框架的无缝对接,以及分布式训练适配,数据湖显著提升训练效率,成为多模态AI训练的理想数据基础设施。

2025-11-02 23:30:55 997

原创 Hudi、Iceberg、Delta Lake、Paimon四种数据湖的建表核心语法

数据湖建表语法对比摘要 Hudi、Iceberg、Delta Lake和Paimon四大数据湖框架的建表语法各有侧重: Hudi需明确表类型(COW/MOR)、主键和分区字段,通过USING HUDI和TBLPROPERTIES配置核心属性。 Iceberg强调分区管理,支持显式分区和隐藏分区(GENERATED ALWAYS AS),依赖Spark扩展和Catalog配置。 Delta Lake区分标准表和外部表,通过USING DELTA标识,事务日志自动维护。 Paimon基于Flink SQL,需定

2025-11-01 23:28:43 789

原创 Hudi、Iceberg、Delta Lake、Paimon 建表语法与场景示例

数据湖主流建表引擎核心表类型必配参数适配场景HudiSparkMOR表/COW表主键(recordkey)、分区(partitionpath)实时CDC、近实时更新Iceberg基础分区表/隐藏分区表分区字段、Catalog配置PB级离线分析、动态分区管理Delta LakeSpark标准表/外部表事务日志(_delta_log)流批一体、数据合规审计PaimonFlink主键表/Append-Only表。

2025-11-01 23:23:21 1433

原创 python多线程连接MySQL查数案例

该博文展示地是基本示例,实际使用时可能需要进行调整。例如,你可能需要添加错误处理来确保数据库连接问题不会导致脚本崩溃,或者你可能需要调整查询以匹配你的数据。此外,你需要确保你的系统有足够的内存和处理能力来支持并行处理。如果数据库查询非常消耗资源,你可能需要考虑使用并发处理而不是并行处理,以避免系统过载。

2024-02-06 08:23:11 856

原创 MySQL查询优化技巧和10个案例展示

以下案例仅为 MySQl 查询优化的冰山一角,实际应用中可能需要根据具体的数据模型、查询模式和业务需求进行更为深入的优化。通常,优化包括选择正确的查询策略、创建和维护适当的索引、分析和调整查询执行计划、以及考虑缓存和数据结构的设计等多个方面。通过持续的学习和实践,可以逐步提高 MySQL 数据库的查询效率,为应用系统带来更好的性能和用户体验。EXPLAIN 可以帮助我们了解查询语句的执行计划,找出潜在的性能瓶颈。仅检索所需的列可以减少数据传输量,提高查询效率。为查询频繁的列创建索引可以显著提高查询速度。

2024-02-06 00:05:29 2062 1

原创 hadoop必记知识点(3)

需要注意的是,Combiner的输出和Reduce的输出类型应该是一样的,而且Combiner的函数应该是可合并的,即多个Combiner的输出可以被合并成一个单一的输出。请求序列化:在客户端发起RPC请求时,请求中的参数需要被序列化。方法调用:在请求反序列化完成后,服务端的Hadoop RPC服务端代码会调用请求中指定的方法,并使用反序列化后的参数作为方法的参数。完全分布式模式:这是Hadoop的正式运行模式,所有的Hadoop组件在不同的节点上运行,每个节点都是集群中的一员,能够处理一些大型数据。

2024-01-29 20:23:38 1097

原创 大数据StarRocks(九):资源隔离实战

自 2.2 版本起,StarRocks 支持资源组管理,集群可以通过设置资源组(Resource Group)的方式限制查询对资源的消耗,实现多租户之间的资源隔离与合理利用。在 2.3 版本中,StarRocks 支持限制大查询,集群可以进一步控制大查询对资源的消耗,避免少数的大查询耗尽系统资源,进而影响系统稳定性。StarRocks 2.5 版本支持通过资源组对导入计算进行资源隔离,从而间接控制导入任务对集群资源的消耗。

2024-01-29 20:21:00 2323

原创 hadoop必记知识点(2)

在 Hadoop 集群进行计算时,可能会遇到多个瓶颈,但最主要的通常包括网络带宽、存储以及 CPU 处理能力。网络带宽:Hadoop 集群中的各个节点需要频繁地进行数据传输和通信,这就需要网络带宽足够大。如果网络带宽不足,节点之间的数据交换将会变得缓慢,从而影响整个集群的计算性能。存储:Hadoop 集群在进行计算时,需要大量的数据存储空间。如果存储资源不足,可能会导致数据丢失或者无法存储新的数据,进而影响到集群的计算能力。

2024-01-23 00:35:29 1147

原创 hadoop必记知识点(1)

传统的单机数据库或服务器在面对海量数据时,处理速度慢,扩展性差,而Hadoop通过分布式架构,可以将海量数据分散存储在多个节点上,并行处理,从而大幅提高处理速度和扩展性。同时,Hadoop还支持各种数据处理和分析模式,包括批处理、流处理、图处理等,可以满足各种复杂的数据需求。9.Apache Flink 是 Hadoop 生态圈中的一个重要组件,它是一个开源的、用于处理大数据的流处理框架。Apache Flink 是 Hadoop 生态圈中的一个重要组件,它是一个开源的、用于处理大数据的流处理框架。

2024-01-21 22:51:11 1123

原创 DBA技术栈MongoDB: 数据增改删除

该博文主要介绍mongoDB对文档数据的增加、更新、删除操作。

2024-01-21 21:22:06 1157

原创 DBA技术栈MongoDB: 索引创建和查询优化

MongoDB可以在一个集合上建立一个或多个索引,而且必须为在字段_id建立一个索引,建索引的目的与关系数据库一样,就是为了提高对数据库的查询效率;一旦索引创建好,MongoDB会自动地根据数据的变化维护索引,如果索引太大而不能全部保存在内存中,将被移到磁盘文件上,这样会影响查询性能,因此要时刻监控索引的大小,保证合适的索引在内存中;监控一个查询是否用到索引,可以在查询语句后用explain命令或profile()方式进行监控。

2024-01-20 22:48:56 1774

原创 DBA技术栈MongoDB:简介

MongoDB是一个可扩展、开源、表结构自由、用C++语言编写且面向文档的数据库,旨在为Web应用程序提供高性能、高可用性且易扩展的数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中 功能最丰富、最像关系数据库的NoSQL数据库;它支持的查询语言非常强大,其语法有 点类似于面向对象的查询语言,可以实现类似关系数据里单表查询的绝大部分功能,而且还支持对数据建立索引。MongoDB是一个面向文档的数据库,不支持关系数据库中的join操作和事务。

2024-01-19 00:23:11 1636

原创 大数据StarRocks(八):集群扩缩容

StarRocks FE 节点分为 Follower 节点和 Observer 节点。Follower 节点参与选举投票和写入,Observer 节点只用来同步日志,扩展读性能。DROP 会立刻删除 BE 节点,丢失的副本由 FE 调度补齐,而 DECOMMISSION 先保证副本补齐,然后再删除 BE 节点。新增节点设定为 Follower 或 Observer 节点。完成后,您可以查看节点信息验证缩容是否成功。完成后,您可以查看节点信息验证缩容是否成功。将新增节点设定为 Observer 节点。

2024-01-19 00:17:29 1100

原创 python异常修复:UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xbf in position 391: illegal multibyte

在使用configparser模块读取配置文件的参数是,出现如图报错。

2024-01-15 23:17:14 1513

原创 DBA技术栈(三):MySQL 性能影响因素

大部分人都一致认为一个数据库应用系统(这里的数据库应用系统概指所有使用数据库的系统)的性能瓶颈最容易出现在数据的操作方面,而数据库应用系统的大部分数据操作都是通过数据库管理软件所提供的相关接口来完成的。所以数据库管理软件也就很自然的成为了数据库应用系统的性能瓶颈所在,这是当前业界比较普遍的一个看法。数据库有使用场景的适配性,不能认为关系型数据库是万能的。比如大批量数据的离线报表,应借助hive离线数仓去解决,设计到视频/图片等数据可以借助hbase或是图数据库等。

2024-01-15 23:07:09 1755

原创 大数据StarRocks(七):数据表创建

建表的基本语法[key_desc]参数说明col_name:列名称注意,在一般情况下,不能直接创建以以 __op 或 __row 开头命名的列,因为此类列名被 StarRocks 保留用于特殊目的,创建这样的列可能导致未知行为。如需创建这样的列,必须将 FE 动态参数 allow_system_reserved_names 设置为 TRUE。col_type:列数据类型之前博文数据类型agg_type:聚合类型,如果不指定,则该列为 key 列。否则,该列为 value 列。

2024-01-14 07:46:08 3722 1

原创 SQL优化小技巧

尽量避免使⽤where 1=1,优化:⽤代码拼接sql,需要where的地⽅加where,需要and的地⽅加and。尽量避免使⽤游标,因为游标的效率较差,如果游标操作的数据超过1万⾏,那么就应该考虑改写。唯⼀索引可以确保每⼀⾏数据的唯⼀性,通过使⽤索引,可以在查询的过程中使⽤优化隐藏器,提⾼系统的性。在使⽤索引字段作为条件时,如果该索引是复合索引,那么必须使⽤到该索引中的第⼀个。才能保证系统使⽤该索引,否则该索引将不会被使⽤,并且应尽可能的让字段顺序与索引顺序相⼀致。

2024-01-11 23:09:37 523

原创 clickhouse常规的优化方法

在ClickHouse表中数据存储时,对于一些列尽量不使用Nullable类型存储,因为此类型需要单独创建额外的文件来存储NULL的标记并且Nullable类型列无法被索引,会拖累性能,在数据存储时如果有空值时,我们可以选择在业务中没有意义的值来替代NULL值。ClickHouse 在join 查询时不会主动发起谓词下推的操作,需要每个子查询提前完成过滤操作,需要注意的是,是否执行谓词下推,对性能影响差别很大(新版本中已经不存在此问题,但是需要注意谓词的位置的不同依然有性能的差异)

2024-01-10 07:11:42 2412

原创 大数据StarRocks(六) :Catalog

StarRocks 自 2.3 版本起支持 Catalog(数据目录)功能,实现在一套系统内同时维护内、外部数据,方便您轻松访问并查询存储在各类外部源的数据。

2024-01-08 07:56:00 2801

原创 大数据StarRocks(五) :数据类型

StarRocks 支持数据类型:数值类型、字符串类型、日期类型、半结构化类型、其他类型。您在建表时可以指定以下类型的列,向表中导入该类型的数据并查询数据。5.1 数值类型SMALLINT 2 字节有符号整数,范围 [-32768, 32767]INT 4 字节有符号整数,范围 [-2147483648, 2147483647]BIGINT 8 字节有符号整数,范围 [-9223372036854775808, 9223372036854775807]LARGEINT 16 字节有符号整

2024-01-06 13:05:38 5488

原创 大数据StarRocks(四) :常用命令

这次主要介绍生产工作中Starrocks时的常用命令。

2024-01-05 06:55:29 4409 2

原创 DBA技术栈(二):MySQL 存储引擎

上个业余的图:MyISAM 存储引擎是 MySQL 默认的存储引擎,也是目前 MySQL 使用最为广泛的存储引擎之一。他的前身就是我们在 MySQL 发展历程中所提到的 ISAM,是 ISAM 的升级版本。在 MySQL最开始发行的时候是 ISAM 存储引擎,而且实际上在最初的时候,MySQL 甚至是没有存储引擎这个概念的。

2024-01-04 22:43:31 1714

原创 大数据StarRocks(三) StarRocks数据表设计

StarRocks的表和关系型数据库类似, 由行和列构成. 每行数据对应用户一条记录, 每列数据有相同数据类型. 所有数据行的列数相同, 可以动态增删列. StarRocks中, 一张表的列可以分为维度列(也成为key列)和指标列(value列), 维度列用于分组和排序, 指标列可通过聚合函数SUM, COUNT, MIN, MAX, REPLACE, HLL_UNION, BITMAP_UNION等累加起来. 因此, StarRocks的表也可以认为是多维的key到多维指标的映射.

2024-01-04 00:26:27 3043

原创 DBA技术栈(一):Mysql简介和架构基本组成

MySQL 是由 MySQL AB 公司(目前已经被 SUN 公司收归麾下)自主研发的,目前 IT 行业最流行的开放源代码的数据库管理系统之一,它同时也是一个支持多线程高并发多用户的关系型数据库管理系统。MySQL 数据库以其简单高效可靠的特点,在最近短短几年的时间就从一个名不见经传的数据库系统,变成一个在 IT 行业几乎是无人不知的开源数据库管理系统。从微型的嵌入式系统,到小型的 web 网站,至大型的企业级应用,到处都可见其身影的存在。

2024-01-03 08:21:24 1974

原创 大数据StarRocks(二) StarRocks集群部署

最终以压测中预期结果最好的机器配置进行申请,如果公司很rich的话,直接用80c/256G的机器配置。4.压测可以采用官网提供的压测工具先进行测试,根据测试数据进行资源调整,然后再要业务数据进行压测一遍。

2024-01-03 01:47:46 1708 3

原创 大数据StarRocks(一) StarRocks概述

StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,它充分吸收关系型OLAP数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。

2024-01-02 00:26:16 1627

原创 大数据概念:数据网格和DataOps

数据运维的核心理念是将数据作为一种服务,通过持续集成、持续交付和持续运营的方式,实现数据的快速、可靠和安全的生产、传输和消费。数据运维的主要目标是提高数据的生产率、降低数据的成本、提高数据的质量和可靠性,以及实现数据的合规性和安全性。总的来说,数据运维是一种基于运维理念的数据管理方法,它结合了 DevOps、数据仓库和数据科学等领域的思想和技术,旨在提高数据的质量、可靠性和可用性,从而支持企业的业务发展和创新。数据网格还包括数据消费者、数据生产者、数据管理员等角色,他们共同协作,实现数据的共享和利用。

2023-12-31 22:35:21 1634 1

原创 python定时查询starrocks将结果保存在excel

在工作过程中要定期的更新excel表的信息,每个星期都要去查询strarocks的数据导出结果到excel,俗话说:”不会偷懒的运维不是好运维“,于是写了python小程序解决这个重复的工作,设置定时任务,直接去服务器下载导出的excel表格即可。代码的逻辑简单介绍:将要执行的SQL以名称进行区分保存并放到目录:SQLfileDir,设置结果存放路径:./…/outputdir/。python先查询数据,然后以SQL文件名前缀为excle名称保存,最后移动到指定目录。

2023-12-31 10:55:10 1361

原创 starrocks集群fe/be节点进程守护脚本

自建starrocks集群,有时候服务会挂掉,无法自动拉起服务,于是采用supervisor进行进程守护。可能是版本的原因,supervisor程序总是异常,无法对fe//be进行守护。于是写了个简易脚本。

2023-12-27 23:58:51 1178

原创 (promethues)node_exporter注册自定义监控数据,简单展示

Collect(ctx context.Context) (metrics, error): 此方法用于收集和返回自定义指标。Describe(ctx context.Context, ch chan

2023-12-27 23:50:38 1991

原创 分包zip压缩,解压报错:invalid zip file with overlapped components (possible zip bomb)

在生产环境中,需要把安装包从本地传到服务器上,传输过程中网络抖动的原因造成大文传输失败。可以将文件分包压缩成200M或500M大小的文件,然后分批传输到服务器。

2023-12-26 07:21:00 3824

原创 基于python编写的服务器之间流量传输netflow_exporter

通常企业会在多个机房部署IT系统,在大数据基础服务组件中会集群跨机房部署或是跨机房抽取数据的场景,在抽数任务时间节点没有错开的时候,经常会造成带宽打满的情况,跨机房的带宽费用比较昂贵,不考虑成本去扩跨机房的带宽是不现实的。为了跟踪各服务器之间的网络交互的情况,更好调配抽数任务,用python写了一个netflow_exporter,将服务之间的流量传输进行监控,并将采集的数据接入Prometheus,最后在Grafana上展示。流量走向监控基本思想和实现代码介绍到这里,后面还会继续优化。

2023-12-26 00:17:24 1061

原创 go编写的netflow _exporter,本地测试代码

【代码】go编写的netflow _exporter,本地测试代码。

2023-12-26 00:03:11 583

原创 hadoop集群坏块处理

【代码】hadoop集群坏块处理。

2023-12-24 13:07:34 851

原创 CreateProcess error=216, 该版本的 %1 与你运行的 Windows 版本不兼容。请查看计算机的系统信息,然后联系软件发布者。

Error running ‘go build hello.go’: Cannot run program “C:\Users\Administrator\AppData\Local\Temp___go_build_hello_go.exe” (in directory “G:\go\workspace”): CreateProcess error=216, 该版本的 %1 与你运行的 Windows 版本不兼容。解决方法:package workspace 改成package main。

2023-12-24 13:05:45 2178

原创 阿里云starrocks监控告发至钉钉群

脚本逻辑:抓取sr的be/fe/routine load状态信息,判读是否触发告警,若满足告警条件,则发送告警信息到钉钉群,并艾特对应的责任人。注册机器人链接:https://open.dingtalk.com/document/connector/alarm-subscription。

2023-10-17 23:43:24 1005

原创 flink-cdc-connectors-release-2.4.1编译记录

【代码】flink-cdc-connectors-release-2.4.1编译记录。

2023-09-13 16:39:42 559

原创 ChunJun编译记录

【代码】ChunJun编译记录。

2023-07-24 14:20:18 413

chunjun编译依赖

chunjun编译依赖+大数据开发运维+大数据学习和生产实践,适用于数据入仓ETL操作等

2023-07-24

CentOS7.4系统上PG库一键部署包:Postgres-12.3-v2-20200802.tar.gz

工作过程中接触到PG库,PG库的备份和数据迁移,但是手动安装数据的过程没有记录,于是写了脚本,实现一键安装postgres数据库,免去繁琐的安装过程。 解压文件后可以先看下readme.txt。如有疑问可以私信交流,一起探讨~~

2020-08-02

什么是Docker.emmx

Docker学习第一章思维导购图,简略介绍了Docker的发展,Docker的架构,Docker的优势

2019-10-25

kube-install-for-k8s1.21-v0.5.0.tgz1

k8s一键部署安装包,供所对k8s感兴趣的同学使用。

2021-06-30

Redis-5.0.5-v2-20200803.tar.gz

背景:为了测试最新的Redis,于是尝试安装了Redis服务,为了方便学习和研究,于是制作了一键安装包。

2020-08-03

Postgres-12.3-v1-20200802.tar.gz

工作过程中接触到PG库,PG库的备份和数据迁移,但是手动安装数据的过程没有记录,于是写了脚本,实现一键安装postgres数据库,免去繁琐的安装过程。 解压文件后可以先看下readme.txt。如有疑问可以私信交流,一起探讨~~

2020-08-02

mysql-backup

现在用单独的文件服务器作为备份的客户端,在文件服务器上连接mysql进行数据备份,从而实现了“异地容灾”备份。

2020-11-20

Nginx-1.19.0-20200804.tar.gz

NGINX是强大的软件,在工作过程实践了通过NGINX软件实现跨越防火墙访问服务,从而使服务实现一网双域访问。为了方便以后使用,制作了一键安装包。

2020-08-04

Postgres-10.12.1v-20200803.tar.gz

该安装包是PG库10.12版本,做了10版本PG库的主从复制的测试之后,为了方便使用将其打包了一键化安装包。

2020-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除