杰克逊的日记-CSDN博客

原创 impala

专为 Hadoop 设计。与 Presto 类似，Impala 用于交互式分析，但架构和设计理念有所不同。通过以上配置和优化，Presto 可以高效处理 PB 级数据的交互式分析查询，成为企业数据湖的核心查询引擎。，它是 Cloudera 开发的开源。

2025-05-17 16:21:08 941

原创 SkyWalking的工作原理和搭建过程

通过以上机制，SkyWalking 实现了对分布式系统的全链路监控，帮助开发者快速定位性能瓶颈、故障根因，优化系统架构。其核心优势在于无侵入式采集、高性能分析引擎和强大的可视化能力，特别适合云原生微服务环境。，专为云原生、微服务架构设计。，通过无侵入或轻量级的方式实现全链路监控。SkyWalking 是一个开源的。SkyWalking 采用。

2025-05-16 19:55:29 1039

原创 Flink运维要点

通过以上策略，可以构建稳定、高效的 Flink 运维体系，快速响应并解决各类生产问题。建议定期进行故障演练（如模拟 TaskManager 崩溃），验证应急预案的有效性。

2025-05-16 13:31:51 721

首先，我们应该要知道的是，一个Excel文件对应一个workbook，一个workbook中有多个sheet组成，一个sheet是由多个行(row)和列(cell)组成。用maven引入依赖jar包的可能会遇到包引用不到的bug，但是maven依赖确实已经引入了，而且没有任何报错，但是只要一引用 org.apache.poi.hssf.usermodel下面的类。String[] title = {"名称","性别","年龄","学校","班级"};String sheetName = "学生信息表";

2025-05-15 20:30:00 438

原创 Loki的部署搭建

Loki 是 Grafana Labs 团队开源的水平可扩展，高可用性，多租户的日志聚合系统。它的设计非常经济高效且易于操作，因为它不会为日志内容编制索引，而是为每个日志流编制一组标签。

2025-05-15 18:31:37 399

原创主流AI技术栈，持续跟踪技术领域最新进展

主流的 AI 技术栈通常可以分为基础设施层、框架层、模型层、接口层和应用层2。

2025-05-15 12:42:04 520

原创阿里云的网络有哪些

1：是用户基于阿里云创建的自定义私有网络。不同的专有网络之间二层逻辑隔离，用户可在自己创建的专有网络内创建和管理云产品实例，如 ECS、SLB、RDS 等。VPC 为每个用户提供独立的、完全隔离的虚拟网络空间，支持自定义路由表、网络 ACLs（访问控制列表）以及与其他 VPC 或本地数据中心之间的连接等高级网络功能配置选项。

2025-05-15 12:30:40 408

原创网络运维过程中的常用命令

三、DNS 与主机名解析。二、网络配置与状态查看。四、性能监控与流量分析。六、远程管理与文件传输。五、防火墙与安全工具。七、高级工具与自动化。

2025-05-14 19:56:10 1061

原创 GPU服务器集群部署

GPU 服务器集群部署是一个复杂但关键的过程，以下是一般的部署步骤：

2025-05-13 19:02:39 457

原创云平台架构

架构师的工作主要围绕系统架构的设计、实施、维护与优化展开，以下是具体的工作内容以及相应的做法：

2025-05-13 11:24:29 420

原创 RDMA网络通信技术、NCCL集合通讯（GPU）

NCCL 是 NVIDIA 专为 GPU 设计的高性能集合通信库，用于优化多 GPU、多节点间的集体操作（如 AllReduce、Broadcast、AllGather 等），是深度学习分布式训练的核心组件。RDMA 允许计算机直接访问远程内存，无需 CPU 干预，大幅降低了网络通信的延迟和 CPU 开销。常见的 RDMA 实现包括。是两项关键技术，用于优化节点间数据传输效率和大规模并行计算性能。在高性能计算（HPC）、人工智能训练和数据密集型场景中，

2025-05-13 11:05:05 1292

原创大规模容器集群怎么规划

规划大规模容器集群需要综合考虑多个方面，以下是一些关键的规划要点：

2025-05-12 19:00:00 784

原创大项目k8s集群有多大规模，多少节点，有多少pod

为保障集群稳定，我们采用 Prometheus + Grafana 监控资源使用，通过 HPA 自动伸缩 Pod，并定期进行混沌工程演练，确保业务 SLA 不低于 99.95%。，分布在 3 个可用区（AZ），采用多控制平面高可用架构。，资源利用率保持在 65%-75%，预留 25% 资源应对业务高峰。目前我负责的 K8s 集群规模为。

2025-05-12 12:56:17 377

原创大规模k8s集群怎么规划

规划大规模 Kubernetes（K8s）集群时，需要综合考虑多个方面，以确保集群能够高效、稳定地运行。

2025-05-12 12:53:59 1019

原创 openstack的网络和vpc网络底层原理有什么区别与联系

OpenStack 网络和 VPC 网络在底层原理上既有区别又有联系，具体如下：

2025-05-10 15:28:44 300

原创 openstack的网络技术是怎样的

OpenStack 是一个开源的云计算平台，其网络技术涵盖了网络组件、网络模式、服务功能等方面，以下是详细介绍：

2025-05-10 15:28:04 362

原创怎么实现云硬盘技术，云硬盘技术实质

实现云硬盘技术需要综合考虑硬件选型、存储虚拟化、数据分布与冗余、元数据管理、网络通信、管理与监控以及数据安全等多个方面，通过合理选择和集成各种技术，构建一个可靠、高效、安全的云硬盘存储系统。

2025-05-10 14:59:15 660

原创运维体系架构规划

运维体系架构规划是一个系统性工程，旨在构建高效、稳定、安全的运维体系，保障业务系统的持续运行。

2025-05-09 20:16:34 1057

原创使用POI导入Excel数据到数据库

注意：上面我写的这个不是通用的，只是针对于我做的一个excel模版来读取的，把读取到的值赋值到实体bean里，然后放入到，集合。之后传到业务层，根据里面的字段来更新数据库一些表的状态，信息。<input class="btn btn-primary btn-md" type="button" value="导入" id="upLoadPayerCreditInfoExcel"在读取的时候可以把每一行看作一个实体bean，在遍历行的时候进行赋值。//遍历所有的列(把每一行的内容存放到对象中)

2025-05-09 19:54:14 795

原创 CI/CD面试题及答案

回答 CI/CD 面试题时，建议结合具体工具（如 Jenkins、GitLab CI/CD）和实际项目经验，突出自动化、质量保障和持续改进的思路。理解各种部署策略（蓝绿、金丝雀）和高级概念（GitOps）能体现技术深度。

2025-05-09 13:58:38 1046

原创 gitlab相关面试题及答案

准备 GitLab 面试时，建议结合实际项目经验，深入理解 CI/CD 配置、安全策略和故障排除方法。GitLab 官方文档和社区资源也是很好的学习材料。GitLab 是一个开源的 DevOps 平台，提供代码托管、CI/CD、问题跟踪等功能。

2025-05-09 13:51:21 879

原创集成管理工具Gitlab

GitLab 是一个功能强大的开源代码托管和协作平台，集成 GitLab 可以显著提升团队的开发效率。下面我将为你介绍如何集成 GitLab，包括安装配置和基本使用流程。

2025-05-09 13:44:46 500

原创在k8s中，如何实现服务的访问,k8s的ip是变化的，怎么保证能访问到我的服务

表格方案核心维度适用场景动态性复杂度NetworkPolicy 标签/命名空间集群内细粒度流量控制高中ServiceAccount+网络策略身份+权限绑定微服务间需RBAC联动的场景高高云厂商VPC策略底层网络隔离跨集群或混合云环境低（需固定Node）低服务网格协议/认证/流量治理复杂微服务架构，需mTLS/熔断等高极高Calico/Cilium高级特性原生插件深度集成大规模集群，需IPSet/Endpoint ID等高中。

2025-05-08 17:33:58 962

原创云平台的技术方向和总体规划

2025-05-08 14:03:47 953

原创 helm的原理及作用

Helm 是 Kubernetes 的包管理工具，就像 Ubuntu 系统的 apt、CentOS 系统的 yum 以及 Python 的 pip 一样，它能帮助用户更便捷地管理 Kubernetes 应用。

2025-05-08 13:11:45 433

原创搭建和优化CI/CD流水线

代码提交与触发：当开发人员将代码提交到版本控制系统的指定分支时，触发 CI/CD 流水线的执行。代码检查：对提交的代码进行静态分析，检查代码的语法错误、代码风格、潜在的安全漏洞等。常用的工具如 ESLint（JavaScript）、Pylint（Python）等。构建：根据项目的类型和配置，使用相应的构建工具（如 Maven、Gradle、npm 等）将代码编译成可执行的二进制文件或容器镜像。测试：执行各种类型的测试，包括单元测试、集成测试、端到端测试等，确保代码的功能正确性和稳定性。

2025-05-08 10:24:55 995

原创智算中心的搭建标准

智算中心的搭建标准主要涉及以下几个方面：

2025-05-07 22:26:54 380

原创数据中心机电建设

数据中心机电建设是一个复杂的系统工程，需要综合考虑电气、暖通、给排水等多个专业的协同配合，以确保数据中心的安全、可靠、高效运行。在建设过程中，应严格遵循相关的标准和规范，采用先进的技术和设备，以满足数据中心不断发展的需求。

2025-05-07 22:23:04 1092

原创智算中心基础设施0-1建设全流程及投产后的运维

2025-05-07 22:20:11 866

原创 openstack的网络

OpenStack 是一个开源的云计算平台，其网络模块提供了丰富的功能来管理和配置云计算环境中的网络资源。

2025-05-07 17:14:08 536

原创云平台的文件如何备份

此外，一些云平台还支持第三方备份工具与云服务的集成，用户也可以根据自身需求选择合适的第三方工具来实现更灵活、定制化的云平台文件备份方案。

2025-05-07 17:05:21 163

原创云硬盘的原理

云硬盘是云计算环境中的一种存储服务，其原理主要涉及数据存储、数据冗余与容错、性能优化以及数据安全等方面，以下是具体介绍：

2025-05-07 17:03:07 416

原创什么是TensorFlow

TensorFlow 是谷歌开发并开源的一个强大的机器学习和深度学习框架，在 AI 解决方案中有着广泛应用。下面为你介绍如何将 TensorFlow 融入到前面所说的 AI 解决方案流程里，同时给出一些使用 TensorFlow 的示例代码。

2025-05-05 02:55:21 922

原创什么是PyTorch

PyTorch 是另一个广泛使用的开源深度学习框架，由 Facebook 开发。它以动态计算图为核心特性，在研究和工业界都有大量应用。以下从基础概念、使用流程、代码示例等方面为你介绍 PyTorch。

2025-05-05 02:49:49 1178

原创 python的Pandas库

Pandas 是 Python 中一个强大且广泛使用的数据处理与分析库，提供了高效的数据结构和数据操作工具，能让你轻松处理和分析各种类型的数据。以下从基本概念、常用功能、代码示例几个方面详细介绍。

2025-05-04 00:50:04 1032

原创 python 的numpy库数组

1. 数组创建# 从Python列表创建一维数组# 创建二维数组# 创建全零数组# 创建全一数组# 创建等差数列# 2. 数组属性print("arr2的形状:", arr2.shape)print("arr2的维度:", arr2.ndim)print("arr2的元素个数:", arr2.size)print("arr2的数据类型:", arr2.dtype)# 3. 数组索引和切片# 访问一维数组元素。

2025-05-04 00:45:46 650

原创 GPU集群搭建步骤

使用 NTP（网络时间协议）保证所有服务器的时间同步，避免因时间不一致引发问题。编辑网络配置文件，例如在 Ubuntu 系统中编辑。根据业务需求，在集群上部署深度学习框架（如 TensorFlow、PyTorch）或者其他 GPU 加速应用。在每台服务器上安装选定的 Linux 操作系统，安装过程中按提示完成磁盘分区、用户创建等设置。文件，配置集群信息，例如节点列表、分区设置等。若能正常显示节点信息和分区状态，则表明集群管理系统配置成功。若能正常显示 GPU 信息，则表明驱动安装成功。

2025-04-30 19:35:06 908

原创 ceph存储原理

Ceph 是一个开源的分布式存储系统，它的原理涉及数据存储、数据分布、数据冗余和故障恢复等多个方面，下面为你详细介绍：Ceph 采用对象存储作为基础存储模型。在 Ceph 中，所有数据都被抽象为对象（Object）。每个对象包含数据本身以及与之关联的元数据，元数据描述了对象的属性，如大小、创建时间、访问权限等。对象被存储在对象存储设备（OSD）上，OSD 是实际负责存储和管理数据的物理节点或逻辑单元。Ceph 提供了多种客户端接口，包括对象存储接口（如 S3、Swift）、块存储接口（如 iSCSI）和文件

2025-04-30 19:30:29 798

原创 GPU集群搭建

要替换成你需要的 NVIDIA 驱动版本号。同时，要依据实际情况对 Slurm 配置文件。

2025-04-30 19:21:54 585

原创 GPU集群中的超节点

超节点，英文名叫SuperPod，是英伟达公司最先提出的概念。GPU是重要的算力硬件，为AIGC大模型的训推提供了有力的支撑。随着大模型参数规模的不断增长，对GPU集群的规模需求，也在不断增长。从千卡级到万卡级，再到十万卡级，将来甚至可能更大。

2025-04-30 19:15:13 1267

从底层了解计算机，对计算机有一个全新的认识

计算机硬件及参数，让你对计算机有一个全新的认识

空空如也