- 博客(604)
- 资源 (6)
- 收藏
- 关注
原创 grafana 制作 table 格式的图
默认是以时间序列格式,一条信息代表一个时间点的条目,很多重复的,这里可以选择。2、选择 Table 类型的 Visualizations。1、选择 table 类型的 Format。设置不同的列使用不同的颜色。下面概述下制作流程。
2026-02-10 14:02:56
15
原创 k8s kubelet 日志频繁刷 E0210 11:20:53.848528 1219 dns.go:156] “Nameserver limits exceeded“
1、修改 kubelet 的 resolvConf 配置,指定一个自定义的文件。👉 都不会改 /var/lib/kubelet/config.yaml。可见是 nic0/nic1 网卡上配置了重复的 dns 解析,执行。使用 kubeadm 部署的 k8s 集群,频繁刷如下日志。查看该文件下的 DNS 条目是不是超过了 3 条。问题:那 kubeadm 升级会不会覆盖这个配置?查看 kubelet 使用的配置文件。不是缩进在某个 block 里。重启 kubelet(必须)查看配置的 DNS 文件。
2026-02-10 12:06:50
14
原创 mellanox onyx 交换机配置 snmp 监控 snmp_exporter 采集到 prometheus
说明:默认 snmp-exporter 容器会自带一个配置文件 snmp.yml ,但是该文件认证是 snmpv2 public ,如果要开启 snmpv3 认证,需要修改该配置文件,完整的配置文件见。⚠️说明:执行完上述命令后,onyx 交换机配置就算完成,只需要在 prometheus 配置抓取就可以了。剩下的是扩展内容:比如如何配置 snmpv3 用户和 snmpwalk 命令使用方法。onyx 交换机配置开启 snmp 只需要执行如下这几条命令即可。#开启 snmpv3 用户认证。
2026-02-03 14:21:13
26
原创 nvidia onyx 交换机配置 ntp
1、先执行 ntp show 查看 VRF name 的值,如果不是你想配置的值,要先改掉,比如你想配置 ntp 的 VRF name 为 default ,就执行改成 default2、执行查看是否配配置了,如果配置了验证 vrf 是否是你 ntp 想要配置的VRF name,必须和 ntp 的一致,如果不一致,执行把原来的配置删除,否则报错,参考下文报错处理。
2026-02-03 12:18:03
23
原创 mellanox onyx 系统交换机配置 wjh 监控
sn2700-1.bj telemetry-agent 容器生成的公钥 遥测代理必须与交换机建立信任关系,才能在 LAG 和 MLAG 上进行遥测。说明:onyx 系统的 docker 命令和原生的不太一样,不支持 -it 参数等,也不能 docker start/stop/restart。为防止干扰交换机操作,CPU 必须限制为半个核心(0.5),遥测代理容器的内存消耗必须限制为 300MB。⚠️说明:如无特殊说明,这节的所有命令都在交换机的。⚠️说明:在交换机上登录 agent 容器进行配置。
2026-02-03 12:01:27
21
原创 mellanox onyx 系统交换机基本使用
例如,您可以输入“en”代替“enable”命令,或输入“cli cl”代替“cli clear-history”。”来请求上下文相关的帮助。输入一个合法的字符串,然后在它前面不加空格的情况下按下“?”,将显示已输入命令的描述或可能的命令/参数补全。” 显示“”,表示目前已输入完整的命令。这意味着有三个命令以字母“c”开头:“clear”、“cli”和“configure”。为了帮助识别 CLI 命令的不同部分,下表解释了命令语法的表示约定。如果在执行命令时遇到错误,响应将以“%”开头,后跟错误描述。
2026-02-03 12:00:14
13
原创 mellanox culumus linux 交换机配置 snmp 监控 snmp_exporter 采集到 prometheus
说明:nvidia culumus linux 交换机操作系统跟 linux 操作系统操作命令一样。
2026-01-30 11:33:34
48
原创 k8s calico cni csi-node-driver pod 启动不了 Final result of CNI ADD was an error
我今天也遇到了这个问题。使用 BPF 跟踪连接请求后,我发现 containerd 配置了一个 HTTP 代理,但没有正确排除容器服务的网络范围。查看具体在哪个文件里配置的代理,从输出可知在 /etc/systemd/system/containerd.service.d/http-proxy.conf 文件配置了代理。执行 systemctl show containerd --property=Environment 查看是否配置了代理。由输出可知,配置了代理。containerd 配置了代理。
2026-01-29 19:19:11
69
原创 Linux 内核 Tainted 状态解释
这也是为什么内核在检测到内部问题(“内核错误”)、可恢复错误(“内核崩溃”)或不可恢复错误(“内核恐慌”)时,会打印出内核的污染状态,并将相关的调试信息写入 dmesg 日志输出的原因。某些驱动程序正在不受支持的架构上使用(例如在 x86_64 以外的架构上使用 SCSI/SNIC,在非 x86/x86_64/Itanium 架构上使用 SCSI/IPS,以及在 arm64 架构上使用 irqchip/irq-gic 时固件设置损坏……如果内核在事件发生时未被污染,您将在此处看到“未污染:”。
2026-01-29 13:27:27
54
原创 NVIDIA Mellanox NEO
NVIDIA Mellanox NEO 是一个功能强大的平台,用于管理横向扩展的以太网计算网络,旨在简化现代数据中心的网络配置、监控和运维。NEO 提供强大的自动化功能,扩展了现有工具的功能,涵盖从网络部署和启动到日常运维的各个方面。作为 Mellanox 以太网解决方案的网络 API,NEO 可与 OpenStack、Nutanix、Cumulus Networks 等合作伙伴的解决方案集成。
2026-01-21 19:31:23
42
原创 NVIDIA Unified Fabric Manager (UFM)
提前发现问题,确保网络始终保持最佳性能。NVIDIA Mellanox UFM 平台通过将增强的实时网络遥测与 AI 驱动的网络智能和分析相结合,彻底革新了 InfiniBand 数据中心网络管理,从而支持横向扩展的数据中心。NVIDIA UFM® 平台通过将增强的实时网络遥测与 AI 驱动的网络智能和分析相结合,彻底革新了数据中心网络管理,从而支持横向扩展的 InfiniBand 连接的数据中心。UFM Enterprise 将 UFM Telemetry 的优势与增强的网络监控和管理功能相结合。
2026-01-21 18:42:29
81
原创 NVIDIA NetQ
NVIDIA NetQ™ 是一款高度可扩展的现代网络运营工具集,可让您实时提供 Cumulus 网络架构的可见性,并进行故障排除和验证。借助完整的持续集成和持续部署 (CI/CD) 功能,NetQ 可以轻松管理和配置 AI 网络架构中的网络元素,并提供全套的运营功能,例如可见性、故障排除、验证、跟踪和比较 look-back 功能。利用 NetQ 基于云的部署,可提供即时升级、零维护和更少的设备管理工作。了解 NetQ 的特性和优势,这是一种现代操作工具,可实现数据中心网络的全面、实时可视化和故障排除。
2026-01-21 18:23:03
26
原创 网络包匹配路由的原则是啥 从 01 与啥的运算讲起
路由匹配就是目标 IP & 子网掩码与路由表目的网络比对运算方式是按位与 (AND)如果多条路由匹配 → 选择最长前缀如果你愿意,我可以画一张图解按位与运算 + 路由匹配流程图,让你一眼看懂整个匹配过程。你希望我画吗?
2026-01-20 17:08:30
582
原创 ubuntu 配置 rsyslog 接受 nvidia mellanox synx 交换机的日志
配置完成后还需要配置规则,将交换机的日志输出到本机的哪个文件里。默认的规则配置在 /etc/rsyslog.d/50-default.conf,在该文件末尾增加一行;取消 tcp 行的注释如下,交换机日志默认使用的是 udp 的,需要设置成 tcp 才能使用 tcp 协议传输日志到 rsyslog。配置将什么级别的日志发送到远程 rsyslog。说明:10.0.1.88 为交换机的 ip。配置将日志传送到远端服务器的 ip 和端口。配置日志传送协议为 tcp。如果想把日志再转发到。配置 rsyslog。
2026-01-17 15:57:33
71
原创 nvidia mellanox 交换机系统
Mellanox Onyx(MLNX-OS Ethernet 的后续产品)是一款极其灵活、可扩展的以太网交换机操作系统,面向新一代数据中心的存储、云、金融、媒体和娱乐等的网络需求。借助内置的工作流程自动化功能、监控和可见性工具、增强的高可用性机制等,Onyx 简化了网络流程和工作流程,并提高了效率和减少了运营开支和服务用时。MLNX-OS 操作系统。
2026-01-17 10:56:13
52
原创 dragonfly 镜像缓存问题
本文针对的是支持 containerd 不再支持 docker 的 2.x 版本的 dragonfly 做的测试。容器运行时也是 containerd。
2026-01-07 16:31:18
47
原创 ctr ctictl nerdctl 的问题
对,我们可以仔细区分一下这三个工具的命名空间(namespace)概念,因为它们和底层容器运行时的实现有关: 是 Kubernetes CRI(Container Runtime Interface)的命令行工具,用于和任何符合 CRI 的容器运行时(如 containerd、CRI-O)交互。Namespace 概念:总结: 只能操作 Kubernetes 视角下的容器/镜像,不关心 containerd 的 namespace。 是 containerd 的官方客户端,直接操作 containerd。
2026-01-07 12:09:09
28
原创 ansible-playbook marker 作用
⚠️警告:这两段代码执行会相互覆盖,后执行的覆盖先执行的。让 marker 不一样即可。文件里添加配置,但是。有如下两段代码都是往。
2026-01-06 15:02:19
217
原创 dragonfly client 或者 dfdaemon pod 连接已经不存在的 scheduler pod ip 报错 failed: transport error
如果调度程序实例被强制删除,就会发生这种情况。或者,如果调度程序被删除时管理服务不可用,也可能发生这种情况。mysql manager 数据库 scheduler 表中有脏数据存在。pod 对应的 ip,然后删除非 pod ip 的表数据。在升级调度程序过程中,必须确保管理器有活跃实例。部署好 dragonfly 一段时间后,
2026-01-04 15:57:30
37
原创 EFK 中使用 ruby 和 javascript 脚本去掉日志中颜色字符详解
@-~][@-~]ASCII到范围 64 → 126ANSI 里这叫Final Byte(命令字符)字符含义m颜色 / 样式H光标移动J清屏K清行A B C D光标方向s / u保存/恢复光标t窗口控制👉 只匹配最后那个命令位这一行的正则:👉 精准匹配所有 ANSI CSI 控制序列👉 删除日志中终端颜色/控制字符👉 保留纯文本,保证 ES/Kibana 正常显示改成 Logstash mutate/gsub(不用 ruby)或只删除m不删光标控制。
2025-12-30 17:01:32
1061
原创 k8s 使用持久化 event
Kubernetes Event Exporter 可以轻松地将 Kubernetes 事件导出到其他工具,从而实现更好的事件可观测性、自定义警报和聚合。项目名字项目地址。
2025-12-23 19:30:15
77
原创 k8s langfuse/langfuse 无法启动 error loading seccomp filter into kernel
译文:我们观察到,在 3 个独立的服务上都存在这个问题。此外,如 #34 (comment) 中建议的那样,添加 100 毫秒的睡眠时间(在我们的情况下,1 毫秒不够)也有效。正如我们的案例所示,在某些情况下,这个问题可能会造成麻烦。⚠️说明:本质原因是节点上启动了太多的 pod,导致 bpf_jit 内存使用超过了限制。译文:几周后,它超过了 bpf_jit_limit 的限制,节点处于启动新容器失败的状态。查看 pod 详细信息,其他没有成功启动的pod都是这个错误。查看都是哪些 pod 设置了。
2025-12-23 16:29:48
88
原创 grafana 禁止面板上的告警规则
选择一个支持 Alerting 功能的数据源,比如 Prometheus 或者 Loki,发现Alerting 按钮已经关闭。helm chart 部署的 prometheus,要关闭数据源的页面告警规则,在 values.yaml 中做配置。grafana 面板添加数据源的时候,如果数据源支持 alert 规则,并且开关是打开的状态,就会在。更新配置之后,查看 grafana。,发现已经无告警规则。
2025-12-21 10:30:46
96
原创 k8s kube-prometheus-stack kube-state-metrics 指标时断时续 Failed to write metrics
指标发现有很多大于 10s 的,其实还有一个大于 60s 的没截图。指标大多都与那个关机的主机有关,大于 60s 那个指标也是关机的主机的。这个指标时断时续(偶尔指标缺失),问题就是指标缺失造成的(指标缺失就认定为告警恢复)。这两个告警在恢复和告警之间切换,这明显不正常,因为节点都已经关机,怎么可能恢复。⚠️说明:这个 issue 跟本文的报错日志一样,但是造成的原因不同。scrape_duration_seconds 飙高。问题应该就是 pod 还running导致的。的日志发现如下错误,
2025-12-20 20:31:39
83
原创 谷歌浏览器关闭强制 http 跳转成 https
2、在Delete domain security policies 对话框输入你你想要禁止的网站域名 比如 http://xxx.xx,然后点击 Delete。那个 Domain 对话框内输入你想要禁止的网站域名 比如。1、打开谷歌浏览器,⚠️一定得是谷歌浏览器,输入。,如果出来如下类似的输出,才能进行下一步;3、找到谷歌浏览器三个点。
2025-12-18 16:32:11
311
原创 Java Buildpack Reference
Paketo DistZip Buildpack Paketo DistZip 构建包(opens in a new tab) Optional 选修的 Contributes a process type that launches a DistZip-style application.
2025-12-15 14:35:57
643
原创 elastic/kibana 升级问题
该项目已经不再维护,这个问题没有解决,如果需要使用 helm 安装 elastic 栈的软件,可以使用。的 helm chart 部署 kibana 后,执行。
2025-12-13 20:29:10
81
原创 大模型填充原因解释
注意力本质是矩阵乘法GPU 只擅长规则、连续的矩阵真实序列是变长的所以必须 padding 成等长再用 mask 保证数学语义不被破坏如果你愿意,下一步我可以直接给你画一个QKᵀ + padding + mask 的矩阵级示意图,从元素层面把 PAD 怎么“被 softmax 消灭”给你推一遍。QKV 阶段的 padding,本质是在补“token 的数量”,不是在补“token 的内容维度”。
2025-12-13 11:09:02
560
原创 k8s 剔除控制节点
登录要剔除的节点(同时也是etcd 节点之一),备份该节点的etcd。本文采用的是 kubeadm 部署的 3 控制节点集群。注意:记下要被剔除的节点上的 etcd 的 id。containerd runtime 操作命令。docker runtime 操作命令。查看 etcd 成员 id。说明:从其他节点操作。登录要被剔除的节点操作。移除 etcd 成员。
2025-12-04 14:08:14
76
原创 prometheus nvidia utkuozdemir/nvidia_gpu_exporter 报错 is not a valid metric name
如果不能访问 github ,我摘录了解决方式如下。2、在 helm values 里指定特定版本的。1、直接升级 helm chart 版本;查看可用的helm chart 重点看。,直接修改 values.yaml 中。查看该 pod 日志,发现如下报错。谈论可以看出这个版本仍然有错误。查看 pod 运行情况。相关问题见 issue。这列,本文写作的时候,
2025-12-01 15:04:08
43
原创 frp 代理安装配置
软件包地址本文安装的是 0.62.0 版本,服务端在一台 linux 服务器上安装,客户端一台是 linux,一台是 mac 苹果芯片。macos 安装包名字linux 安装包名字客户端和服务端安装包是一个。
2025-11-28 17:33:31
262
原创 ubuntu 关闭更新解决 ansible apt 命令报错
apt-check 会检查系统是否有可更新的软件包,并以人类可读的形式输出。⚠️说明:本文没执行如下命令就解决了,如果你没解决请继续执行如下命令。这是 Ubuntu/Debian 系统 自动更新检查工具的一部分。会导致 ansible 执行 apt 相关 task 报错。
2025-11-28 14:43:10
259
原创 k8s ceph rbd image ceph-blockpool/csi-vol-xxx is still being used
启动 pod 卡在 containercreate 状态,使用kubectl describe pod [pod name]命令查看详细报错。说明:本文使用的 rook-ceph 部署的 ceph。登录到 tool 工具 pod 执行如下命令查看客户端 ip。查看是哪个客户端 ip 在使用该 image。将这个客户端加入黑名单即可。
2025-11-25 12:18:34
151
1
原创 k8s kubeadm init 失败
contianerd 2.x.x 和 containerd 1.x.x 相比,配置文件。这部分配置是因为我安装 nvidia-device-plugin 需要的,参考官网。只有 containerd 2.1.5-1 及之上的版本有这个问题,执行。将节点加入k8s 集群,但是报错,报错如下。k8s + containerd 运行时。我通过更改为以下配置解决了这个问题。然后再跳转到的文档处找到如下部分配置。,具体参考本文灵感来源部分。命令可查看可用的版本号。问题出在配置的这一部分。
2025-11-21 14:36:35
114
原创 k8s cri-docker
cri-docker 和 docker 版本不兼容导致的(docker 版本太高,cri-dockerd 版本太低)k8s 环境 docker 运行时,安装 cri-dockerd 查看 cri-docker 无法启动。升级下 cri-dockerd 版本即可,本文验证过的版本对应你如下。cri-dockerd 版本。
2025-11-20 18:46:59
147
nvidia culumus linux onyx 交换机 snmp-exporter 容器 snmp 配置
2026-02-03
Tunneling wave function of the universe
2025-06-24
宇宙学德西特极小超空间中隧穿波函数的量子场反作用问题研究:精确计算与路径积分方法比较了在德西
2025-05-20
【量子宇宙学】不同宇宙波函数提案分析:隧穿边界条件与路径积分方法在量子宇宙学中的等价性探讨
2025-05-20
宇宙学评析Krauss“无中生有”理论:广义相对论与量子场论视角下的宇宙起源争议分析要求,具体解析
2025-05-20
宇宙学基于量子隧穿的宇宙创生模型:从无到有的宇宙生成机制与膨胀理论探讨
2025-04-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅