自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(577)
  • 资源 (6)
  • 收藏
  • 关注

原创 Java Buildpack Reference

Paketo DistZip Buildpack Paketo DistZip 构建包(opens in a new tab) Optional 选修的 Contributes a process type that launches a DistZip-style application.

2025-12-15 14:35:57 501

原创 helm 部署 elasticsearch 栈

说明:本文使用的 chart 仓库名字为 elastic/cloud-on-k8s 地址为。

2025-12-13 21:16:06 52

原创 elastic/kibana 升级问题

该项目已经不再维护,这个问题没有解决,如果需要使用 helm 安装 elastic 栈的软件,可以使用。的 helm chart 部署 kibana 后,执行。

2025-12-13 20:29:10 45

原创 大模型填充原因解释

注意力本质是矩阵乘法GPU 只擅长规则、连续的矩阵真实序列是变长的所以必须 padding 成等长再用 mask 保证数学语义不被破坏如果你愿意,下一步我可以直接给你画一个QKᵀ + padding + mask 的矩阵级示意图,从元素层面把 PAD 怎么“被 softmax 消灭”给你推一遍。QKV 阶段的 padding,本质是在补“token 的数量”,不是在补“token 的内容维度”。

2025-12-13 11:09:02 539

原创 nvidia xid 代码含义

Analyzing Xid Errors with the Xid Catalogxid pdf 文档

2025-12-09 14:13:55 76

原创 k8s 剔除控制节点

登录要剔除的节点(同时也是etcd 节点之一),备份该节点的etcd。本文采用的是 kubeadm 部署的 3 控制节点集群。注意:记下要被剔除的节点上的 etcd 的 id。containerd runtime 操作命令。docker runtime 操作命令。查看 etcd 成员 id。说明:从其他节点操作。登录要被剔除的节点操作。移除 etcd 成员。

2025-12-04 14:08:14 63

原创 prometheus nvidia utkuozdemir/nvidia_gpu_exporter 报错 is not a valid metric name

如果不能访问 github ,我摘录了解决方式如下。2、在 helm values 里指定特定版本的。1、直接升级 helm chart 版本;查看可用的helm chart 重点看。,直接修改 values.yaml 中。查看该 pod 日志,发现如下报错。谈论可以看出这个版本仍然有错误。查看 pod 运行情况。相关问题见 issue。这列,本文写作的时候,

2025-12-01 15:04:08 20

原创 frp 代理安装配置

软件包地址本文安装的是 0.62.0 版本,服务端在一台 linux 服务器上安装,客户端一台是 linux,一台是 mac 苹果芯片。macos 安装包名字linux 安装包名字客户端和服务端安装包是一个。

2025-11-28 17:33:31 210

原创 ubuntu 关闭更新解决 ansible apt 命令报错

apt-check 会检查系统是否有可更新的软件包,并以人类可读的形式输出。⚠️说明:本文没执行如下命令就解决了,如果你没解决请继续执行如下命令。这是 Ubuntu/Debian 系统 自动更新检查工具的一部分。会导致 ansible 执行 apt 相关 task 报错。

2025-11-28 14:43:10 244

原创 k8s drain

你要全部清空节点命令✅ 是❌ 只是驱逐副本,不强删。

2025-11-27 13:37:35 23

原创 k8s ceph rbd image ceph-blockpool/csi-vol-xxx is still being used

启动 pod 卡在 containercreate 状态,使用kubectl describe pod [pod name]命令查看详细报错。说明:本文使用的 rook-ceph 部署的 ceph。登录到 tool 工具 pod 执行如下命令查看客户端 ip。查看是哪个客户端 ip 在使用该 image。将这个客户端加入黑名单即可。

2025-11-25 12:18:34 125 1

原创 k8s kubeadm init 失败

contianerd 2.x.x 和 containerd 1.x.x 相比,配置文件。这部分配置是因为我安装 nvidia-device-plugin 需要的,参考官网。只有 containerd 2.1.5-1 及之上的版本有这个问题,执行。将节点加入k8s 集群,但是报错,报错如下。k8s + containerd 运行时。我通过更改为以下配置解决了这个问题。然后再跳转到的文档处找到如下部分配置。,具体参考本文灵感来源部分。命令可查看可用的版本号。问题出在配置的这一部分。

2025-11-21 14:36:35 99

原创 k8s cri-docker

cri-docker 和 docker 版本不兼容导致的(docker 版本太高,cri-dockerd 版本太低)k8s 环境 docker 运行时,安装 cri-dockerd 查看 cri-docker 无法启动。升级下 cri-dockerd 版本即可,本文验证过的版本对应你如下。cri-dockerd 版本。

2025-11-20 18:46:59 132

原创 k8s calico 网络知识点及配置

Calico 支持两种封装方式:VXLAN 和 IP in IP。VXLAN 在某些不支持 IP in IP 的环境中可用(例如 Azure)。VXLAN 的数据包开销略高,因为其头部更大,但除非您运行的是网络密集型工作负载,否则通常不会注意到这种差异。这两种封装方式的另一个细微差别是,Calico 的 VXLAN 实现不使用 BGP,而 Calico 的 IP in IP 实现则在 Calico 节点之间使用 BGP。的 helm chart 部署的 calico 在values.yaml 配置部分的。

2025-11-20 12:11:40 99

原创 linux frp 搭建代理

是的,要实现内网穿透,下面我给你最清晰的一套安装步骤(适用于 Linux)。

2025-11-19 18:53:15 276

原创 k8s kubeadm 初始化报错 invalid bearer token

执行 curl -v xx.xx.xx.xx:6443 查看网络以及服务是否可用。从输出可以看出,走了代理,问题就明确了,是因为走了代理导致的网络问题。新建立的集群,第一次初始化,初始化报错,执行。直接说结论:本文这个报错并不是证书问题。查看kubelet 日志发现如下错误。

2025-11-18 10:46:16 63

原创 服务器主板结构图

好的,我帮你逐条解析这张图上列出的接口和 PCIe 连接。图的核心是,它直接或通过 PCH 控制板上各种设备。

2025-11-14 17:56:18 763

原创 grafana 切换 org 导致的页面跳转不可访问处理

grafana 界面,添加多个组织 Organizations 后,在不同的组织 Organizations 之间切换会跳转到 http(s)😕/doamin:3000/xxxxx 的url。

2025-11-14 12:36:45 152

原创 grafana Update Org ID in Grafana

如果我创建一个名为“测试”的组织,假设 Grafana 给出的组织 ID 为 2。语句解释:sqlite_sequence 是 SQLite 内置的表,用于记录每个 autoincrement 表的当前 ID 序号。如果是 k8s 环境,就先把 grafana.db 文件复制到有 sqlite3 命令的机器上,然后修改。如果某个组织被删除,那么 Grafana 永远不会将该组织 ID 提供给将来创建的任何其他组织。3、把修改好的 grafana.db 文件复制回 grafana pod。

2025-11-14 11:24:18 181

原创 k8s 发行说明(版本)

请务必仔细阅读。

2025-11-13 14:01:39 68

原创 grafana 通过 provider 导入的 dashboard 报错

关于这个问题,是因为这个 导入的 dashboard jison 文件对于数据源的定义部分发生了变化,如下。鼠标移动到任意一个图标的红色⚠️图标处,会出现详情。点击任意一个图标的红色⚠️图标处,会出现。这种 json 格式的数据源对应的配置。不报错的数据源定义为。

2025-11-11 13:29:37 250

原创 为什么微调使用的数据集有格式和模版,训练的时候的数据集没有这些

预训练靠语言分布学习语法与语义;微调靠模板数据学习“人类交互格式”和任务映射。如果你愿意,我可以帮你画一个图:展示“预训练→指令微调→RLHF” 三个阶段的数据流和结构差异,一眼看懂数据为什么变复杂。要我画吗?

2025-11-08 12:06:48 300

原创 k8s kubelet Nameserver limits exceeded

查看 /run/systemd/resolve/resolv.conf 文件中DNS条目,可知有四条,多了一条。删除多的那一条即可,如果愿意,把重复的删除了也行。执行 journalctl -u kubelet -f 发现有如下报错。查看 kubelet 配置文件,看其指向了宿主机上哪个 DNS 文件。

2025-11-06 14:12:26 98

原创 linux 内存 top 看到的内存使用和 free -h 对不上的问题

执行 top 命令切换到按照内存使用多少排列,发现进程并没有使用多少内存。即便把 buff/cache 算上也不可能使用 651Gi内存。服务器执行 free -h 查看内存使用情况发现和 top 的对不上。

2025-11-05 14:25:15 184

原创 k8s calico pod 无法启动 cni-installer/install.go 499: Unable to create token for CNI kubeconfig

由于导致 calico-node pod 启动失败是因为 kube-proxy pod 拉取不到镜像启动失败导致的,所以解决 kube-proxy 拉取镜像的问题即可。结果可知是因为 kube-proxy 没启动导致的 calico-node pod 启动失败。由以上输出可知,可能是网络问题导致的无法启动,而网络问题可能是由于 kube-proxy pod 问题导致的。添加一个节点,但是 calico-node 和 csi-node-driver pod 无法启动。删除这个目录,然后再执行。

2025-11-05 11:34:28 50

原创 ceph mgr 开启 telegraf 模块监控(influxdb+telegraf)

配置,避免权限问题,因为我的 rook-ceph asok 文件属主和属组都是167,所以这里也写 167。说明:本文使用的是 influxdata/influxdb 4.12.5。添加 chart 仓库,和 influxdb 是一个仓库,这段不执行也行。下载离线包,解压后找到 value.yaml 文件,修改配置。下载离线包,解压后找到 value.yaml 文件,修改配置。更改values.yaml 文件配置后执行。更改values.yaml 文件配置后执行。部分,这里需要修改的地方包括。

2025-10-30 18:31:14 69

原创 prometheus 页面无法访问

访问 prometheus 页面的时候跳转到。chart 部署的 prometheus。使用如下配置,浏览器输入。

2025-10-28 19:21:59 234

原创 ceph rgw 用户限额配置

命令查看,输出如下,输出即为用户的 uid。1、直接关闭配额检查(推荐)说明:user-id 使用。设置用户不限额有两种方法。

2025-10-28 11:09:58 51

原创 grafana dashboard 监控 json 文件 uid 长度限制

应用,但是 grafana dashoboard 界面并没有这个新增的自定义监控,查看 grafana 日志如下。的dashboard 监控。但是该监控有些无图,经过修改后将其保存为。的 helm chart 部署的 prometheus。从 grafana 官网找了 一个ID 为。从日志可以看出是因为 uid 太长了。将 uid 部分改为如下,然后执行。的 configmap 文件。

2025-10-27 12:12:59 327

原创 conda 管理 python 版本和虚拟环境

操作命令创建环境并指定 Python激活环境查看环境删除环境修改 Python 版本是否希望我给你补一个「在已有文件里指定 Python 版本」的写法?那种方式更适合团队部署。

2025-10-23 17:01:46 983

原创 ceph scrub errors pgs inconsistent 问题修复

⚠️警告:如果执行方法2后使用 ceph pg 3.391 query 查询到的 pg 状态。然后停止 osd.39 一段时间,等待ceph 认为这个 osd 下线,然后再启动 osd.39。字段中如下输出,从输出中可以获取一些对修复有用的信息,从。输出可知 pg 主 osd 为 osd.39 ,从。输出可知有完整信息的是 osd.50。查看 3.391 pg 详细信息。查看 ceph 集群状态。说明:我这个环境执行。

2025-10-23 12:13:31 62

原创 loki loki-promtail pod 频繁刷新 received file watcher event

然后查看监控,该pod 的cpu 利用率一直很高。编辑 docker 配置文件。

2025-10-21 18:33:29 187

原创 prometheus PromQL

以及右边 ceph_pool_metadata 里对应 pool_id 的 name 标签。结果只是把 pool_id:name 拼成 pool_label,并不涉及另一个指标。原本 ceph_pool_percent_used 的值;允许把右侧指标的标签(比如 name)合并到左侧。它只能在单个指标内操作标签。

2025-10-20 11:46:18 152

原创 ceph CephObjectStoreUser 创建 user 失败 ReconcileFailed

使用如下配置创建 rgw user。⚠️说明:Ready 表示成功。⚠️说明:输出中有一样的提示。查看创建的用户是否成功。⚠️说明:输出中有提示。

2025-10-16 18:36:38 54

原创 ceph 手动编辑 crush 规则

对于大多数安装, CRUSH 更改可以通过 Ceph CLI 实现,无需手动编辑 CRUSH 映射。如果您发现在最近的 Ceph 版本中存在需要手动编辑的用例,请考虑联系 Ceph 开发者(邮箱: dev@ceph.io )。Ceph 会将已编译的 CRUSH 地图输出 ( -o ) 到您指定的文件名。由于 CRUSH 地图是已编译格式,因此您必须先对其进行反编译,然后才能编辑。编辑以下部分中的至少一个: 设备 、 存储桶和 规则。Ceph 从您指定的文件名加载( -i )已编译的 CRUSH 映射。

2025-10-15 18:23:40 57

原创 k8s cert-manager cert-manager-webhook-xxx pod 证书过期问题处理

CA 是 cert-manager 自己生成的内部 CA,一般通过 Helm 或 YAML 安装时自动创建。“CA certificate has expired” —— 用来签发证书的根 CA 证书已经过期。日志应恢复正常,不再有 “CA certificate has expired” 错误。cert-manager 会检测并自动重新创建新的 CA 及 Webhook 证书。当这个 CA 自身过期后,任何基于它的签发操作都会失败,从而引发该错误。查看 pod 日志报错。

2025-10-13 17:28:51 86

原创 ceph 动态平衡子树

但是,平衡器在效率和性能方面存在问题,因此默认情况下它是关闭的。这是为了避免管理员通过增加max_mds设置来“打开multids”,然后发现均衡器会使集群性能变得一团糟(恢复很简单,但可能需要时间)。cepfs长期以来一直有一个动态元数据平衡器(有时称为“默认平衡器”),它可以拆分或合并子树,同时将它们放在“较冷”的MDS排名上。Ceph fs set <fs_name> balance_automated true #这是 reef (18)版本才有的设置选项,低版本关闭动态子树分区使用。

2025-09-29 11:10:15 99

原创 nvidia pro6000 error visiting device: error creating MIG profile: invalid GPU Instance Profile ID:10

nvidia-device-plugin helm chart 版本从 1.17.3 升级到 1.17.4 即可。⚠️注意:本文遇到的问题与这个无关。

2025-09-26 19:35:42 41

原创 ceph 断电后两个osd 共用一个磁盘导致 pgs down mds 异常问题处理

继续排查,发现 osd-51 和 osd-1 在用一个磁盘。断电后 osd 有一个无法启动,看日志发现如下。任选一个 down 状态的 pg 查询。确保 osd-1 上无 pg。发现有 pgs down。

2025-09-15 12:07:03 86

原创 linux ubuntu 目录删除后继续写文件读文件

【代码】linux ubuntu 目录删除后继续写文件读文件。

2025-09-14 08:51:56 99

nvidia XID error 错误字段描述信息

nvidia XID error 错误字段描述信息

2025-12-09

Tunneling wave function of the universe

内容概要:本文探讨了宇宙隧穿波函数在德西特宇宙与量子标量场的极小超空间框架下的定义。文章考虑了三种不同的方法来定义隧穿波函数:(1)超空间中的隧穿边界条件;(2)洛伦兹路径积分;(3)从零大小初始宇宙量子隧穿。研究发现,超空间方法需要对标量场模态施加Robin边界条件,路径积分方法需要为标量场作用量添加适当的边界项,而初始宇宙方法则要求标量场的初始量子态是欧几里得真空。这三种方法得出的波函数相同,且标量场涨落表现良好,反驳了文献中早期的不稳定论点。 适合人群:具备广义相对论和量子场论基础知识的研究人员,特别是对宇宙学和量子引力感兴趣的学者。 使用场景及目标:①解释不同边界条件下波函数的定义及其物理意义;②验证三种方法的一致性;③探讨标量场涨落在量子宇宙学中的稳定性。 阅读建议:本文涉及复杂的数学推导和物理概念,建议读者先熟悉广义相对论、量子场论和路径积分方法的基础知识。在阅读过程中,应重点关注边界条件的选择及其对波函数的影响,以及路径积分方法的具体实现方式。

2025-06-24

宇宙学德西特极小超空间中隧穿波函数的量子场反作用问题研究:精确计算与路径积分方法比较了在德西

内容概要:本文探讨了德西特极小超空间模型中宇宙隧穿波函数的反作用问题。作者通过求解惠勒-德维特(WDW)方程和计算洛伦兹路径积分两种方法精确计算了宇宙波函数,发现这两种方法得到的结果一致。对于无质量共形耦合标量场,量子场涨落对尺度因子的反作用仅导致真空能量密度的常数重正化。此外,作者验证了隧穿波函数可以表示为从零大小宇宙到给定配置的跃迁振幅。对于大质量标量场,研究结果表明反作用同样表现为真空能量密度的常数重正化。文章还讨论了路径积分形式的隧穿波函数不会导致无限反作用的问题,并回应了Feldbrugge等人提出的质疑。 适合人群:具有相对论、量子力学和宇宙学基础知识的研究人员和学者。 使用场景及目标:①理解量子宇宙学中隧穿波函数的计算方法及其物理意义;②探讨不同方法(WDW方程和路径积分)在计算宇宙波函数时的一致性;③分析量子场涨落对宇宙尺度因子的影响

2025-05-20

【量子宇宙学】不同宇宙波函数提案分析:隧穿边界条件与路径积分方法在量子宇宙学中的等价性探讨

内容概要:本文探讨了宇宙波函数的不同理论提案,重点分析了隧穿提案的各种形式。文章首先介绍了量子宇宙学的基本概念,即整个宇宙被视为一个量子系统并由波函数描述。随后,讨论了不同路径积分方法(如洛伦兹路径积分与外向波提案)之间的关系,以及边界条件的定义问题。特别地,作者详细阐述了隧穿边界条件的提出背景及其与路径积分形式的等价性。此外,还探讨了拓扑变化对波函数的影响,指出拓扑变化不仅发生在超空间边界上,也可能涉及超空间内部的配置。最后,文章对第三量化方法进行了批判性评论,认为该方法在描述拓扑变化时并无明显优势。 适合人群:具有物理学背景的研究人员,特别是对量子引力和宇宙学感兴趣的学者。 使用场景及目标:①理解量子宇宙学中不同波函数提案的本质区别;②掌握隧穿波函数与路径积分方法之间的联系;③研究拓扑变化对宇宙波函数的影响;④评估第三量化方法的有效性和局限性。 其他说明:本文假设读者已经熟悉广义相对论、量子力学以及基本的场论知识。文中引用了大量的相关文献,为读者提供了深入研究的方向。同时,作者强调了在处理实际问题时需要考虑的细节和技术难点,例如边界条件的具体形式和定义等。

2025-05-20

宇宙学评析Krauss“无中生有”理论:广义相对论与量子场论视角下的宇宙起源争议分析要求,具体解析

内容概要:本文是对劳伦斯·克劳斯《无中生有:为什么有东西而不是没有》一书中关于宇宙从“无”中产生的主张进行批判性分析。文章指出,克劳斯所引用的量子引力理论(如惠勒-德维特方程、哈特尔-霍金无边界假设、维尔金的隧穿理论)并未得到广义相对论或弯曲时空量子场论的支持。作者认为,克劳斯所谓的“无”实际上依赖于复杂的物理和数学结构,如变分原理、微分几何、拓扑学等,而这些并非真正的“无”。此外,文章还质疑了从纯量子态过渡到经典态的问题,指出这种转变缺乏充分的理论依据。最后,文章批评了克劳斯关于宇宙总能量为零的说法,强调这一结论仅适用于渐近平坦时空,而我们的宇宙并不符合这一条件。 适合人群:对宇宙学、量子力学及哲学感兴趣的科研人员和高年级学生,尤其是对宇宙起源问题有深入思考的人群。 使用场景及目标:①探讨现代物理学中关于宇宙起源的各种理论及其局限性;②评估克劳斯书中提出的“无中生有”理论是否站得住脚;③理解从量子态到经典态转变过程中存在的问题;④分析宇宙总能量为零这一说法的前提条件及其合理性。 阅读建议:本文涉及大量广义相对论、量子场论以及宇宙学的专业知识,建议读者具备相关背景知识,或在阅读时查阅相关文献以加深理解。同时,本文不仅仅是对克劳斯著作的批评,更是对宇宙起源这一深刻问题的哲学思考,因此在阅读过程中应关注作者提出的问题和反思。

2025-05-20

宇宙学基于量子隧穿的宇宙创生模型:从无到有的宇宙生成机制与膨胀理论探讨

内容概要:本文提出了一种新的宇宙学模型,其中宇宙通过量子隧穿从虚无中自发产生并进入德西特空间(de Sitter space),随后按照膨胀宇宙模型演化。这种模型避免了大爆炸奇点问题,不需要初始或边界条件。文章讨论了标准热宇宙模型的局限性,特别是它对不自然的初始条件的需求。为了解决这些问题,作者引入了量子隧穿机制,解释了宇宙如何从虚无中诞生。文中还探讨了宇宙在隧穿后的演化,包括对称真空态的不稳定性和希格斯场向绝对最小值的滚动,最终导致宇宙进入辐射主导时期。此外,作者提出了一个紧凑的瞬子解来描述这一过程,并指出该模型预测宇宙是封闭的。 适合人群:对宇宙学、量子力学和早期宇宙物理有兴趣的研究人员和高年级物理学学生。 使用场景及目标:①理解宇宙起源的新理论及其与传统大爆炸理论的区别;②探讨量子隧穿机制在宇宙形成中的作用;③研究德西特空间和瞬子解在宇宙学中的应用;④思考宇宙封闭性的预测及其验证的可能性。 其他说明:本文由亚历山大·维连金(Alexander Vilenkin)撰写,发表于1982年的《Physics Letters》,是早期关于宇宙自发创生理论的重要文献之一。文章不仅提出了创新的宇宙学模型,还强调了美学上的优势,即宇宙结构和演化完全由物理定律决定,无需额外的初始条件。此外,文中引用了多位著名物理学家的研究成果,如古斯(Guth)、霍金(Hawking)等,体现了该领域内的广泛讨论和合作。

2025-04-27

MR-SAS-StorCLI-1-16-06.zip

storcli 用来查看主机 raid 信息的命令安装包。

2024-12-31

使用prometheus监控k8s

k8s环境为kubeasz部署的k8s资源。

2023-04-03

centos stream 8 使用的runc

centos stream 8 runc

2022-10-12

k8s metrics-server资源清单文件

k8s metrics-server资源清单文件

2022-08-17

k8s-v1.24.1启动prometheus监控的yaml文件

k8s-v1.24.1启动prometheus监控的yaml文件

2022-06-17

k8s网络插件calico启动yaml文件

k8s网络插件calico启动yaml文件

2022-06-10

calicoctl命令包

calicoctl命令包v3.23.1版本

2022-06-10

kubevirt-cr.yaml文件

kubevirt-cr.yaml文件

2022-02-15

kubevirt-operator.yaml

kubevirt所需yaml文件

2022-02-11

kubevirt部署相关镜像

kubevirt部署相关镜像

2022-02-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除