自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

知本知至的博客

Know this and know the best

  • 博客(127)
  • 收藏
  • 关注

原创 istio代理集群外部的gitlab

原因是:外部client使用https请求到istio的gw后进行tls终止/卸载,使用http请求后端同样是只有http协议的gitlab服务,gitlab根据external_url返回重定向到http链接再返回给外部client导致外部client访问从https变成http。在vs里面添加headers告诉gitlab客户端是来自https的请求,服务端gitlab在收到istio的请求后,重定向至https上,需要实现:通过gitlab.aa.bb.cc.cn来访问集群外的gitlab服务。

2024-09-19 11:54:15 799

原创 kubeadm使用命令行更新apiserver的certSANs

私有云上有一个LB资源,考虑将扩容后的master节点上的apiserver服务绑定至lb上,做高可用。需要把apiserver得ca证书中的X509v3 Subject Alternative Name即SAN字段中添加lb的IP地址。由于集群中安装了kubesphere后,由kubeadm生成的cr被kubesphere的ks-install覆盖了,不能使用网上的传统的kubeadm导出配置文件,添加ip,重新应用至集群这种方法失效。先查看单节点中的apiserver的证书中是不包含lb的IP地址的。

2024-09-18 16:04:04 266

原创 基于open-gpu-kernel-modules的p2p vram映射bar1提高通信效率

bar1 Base Address Register 1 用于内存映射的寄存器,定义了设备的内存映射区域,BAR1专门分配给gpu的一部分内存区域,允许cpu通过pcie总线直接访问显存VRAM中的数据。但bar1的大小是有限的,在常规的4090上,bar1只有256M,基于nvidia开源的open-gpu-kernel-modules模块通过将bar1的寄存器地址增大至32G来提高计算效率。因为机器上的CC和编译内核使用的gcc不是同一个版本,所以这里手工指定make使用哪个gcc。

2024-09-18 14:50:28 249

原创 基于RDMA的nfs服务

nfs rdma 配置

2024-08-29 11:01:40 558

原创 ubuntu22配置ib网卡驱动&ib交换机配置

ib网卡驱动配置和ib交换机端配置

2024-08-29 09:43:50 527

原创 各种杂项笔记

密码管理工具top200弱密码。

2024-08-22 19:12:51 104

原创 LSI-9361阵列卡笔记

注意的点是要先将raid模式调整为JBOD之后重启机器,即可。要将raid0更改为JBOD直通模式。备注:转换过程中硬盘中的数据未丢失。

2024-08-21 20:06:33 299

原创 kaggle使用api下载数据集

kaggle使用api下载数据集,kaggle使用代理下载

2024-07-29 19:42:06 452

原创 ubuntu2204掉驱动

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

2024-07-29 16:46:46 435

原创 nvidia笔记链接

nccl通信库https://blog.csdn.net/qq_43219379/article/details/123436895https://developer.nvidia.cn/nccl

2024-07-24 12:02:21 103

原创 pve笔记

一个思路:可以将控制台输出从default改为串口输出serial0口,但应该要配置宿主机的grub,备注:由于宿主机上存在多台短期不可停机的虚拟机,所以上述思路未经过测试。pve配置显卡直通到虚拟机后,控制台无法显示。

2024-07-24 11:53:00 452

原创 ubuntu2204配置anaconda&cuda&4090nvidia驱动

ubuntu2204配置anaconda&cuda&4090nvidia驱动

2024-07-18 11:44:51 1104

原创 kubesphere自定义流水线基础镜像

refer注意点是要在最下面的中添加自定义的基础镜像,直接复制粘贴更改name和image和label字段即可,注意containers的name字段。args: ""volumes:yaml: |spec:affinity:values:- ciresources:requests:limits:volumes:configMap:items:这点有个小技巧,可以通过ks的图形化界面那里选择node的时候,有个下拉框里面看看是否有自定义的label名字pipeline {

2024-07-01 18:41:53 436

原创 gitlab升级16.11.3-ee

gitlab两种https实现,一种是买第三方的https证书手工配置到nginx上,一种是使用gitlab内置的acme一个证书签发管理工具生成https证书实现加密。pg数据库报错token设置不符合约束,是gitlab配置的token有效期不能设置为永不过期。根据官网给的升级路径工具指出要跨多个版本 需要先升级至中间版本状态,再升级至目标版本。gitlab版本为14.6.2-ee升级至16.11.3-ee。升级至14.9.5过程中的问题。解决:升级pg到指定版本13。继续升级,后续升级无报错。

2024-06-18 09:29:28 1236

原创 k8s更改master节点IP

搭建集群的同事未规划网络,导致其中有一台master ip是192.168.7.173,和其他集群节点的IP192.168.0.x或192.168.1.x相隔太远,现在需要对网络做整改,方便管理配置诸如绑定限速等操作。解决:在活着的master上更改kube-system ns下的kubeadm-config这个cm。使用etcdctl命令将要更改IP的master节点踢出集群。master节点是3节点的。

2024-06-04 17:02:48 1012

原创 pve cluster&k8s cluster重建

pve集群&k8s日常操作

2024-05-14 17:50:57 439

原创 k8s中修复mongodb启动失败

file:WiredTiger.wt, connection: __wt_btree_tree_open, 577: WiredTiger has failed to open its metadata Raw: [1712915546:365392][1:0x7fc65c8f1080], file:WiredTiger.wt, connection: __wt_btree_tree_open, 577: WiredTiger has failed to open its metadata

2024-04-15 11:45:59 554

原创 systemd监听服务配置文件更新自动重启服务

需要频繁更改一个服务的配置文件进行测试。用来监听服务配置文件是否有变化。

2024-04-03 17:05:58 229

原创 Istio蓝绿升级

还有其他的升级方法:使用operator执行蓝绿升级,原地升级。或者istioctl原地升级其他可能会用到的命令。

2024-01-25 14:02:42 529

原创 流水线报错

给项目A指定了一条流水线,后面发版是项目同事自己发,这个项目中的服务越来越多,导致这个串行流水线越来越长。at hudson.model.Executor.run(Executor.java:432)报错。临时解决方法,先注释掉一些本次发版不用的stage,之后改为并行流水线。大概意思就是流水线写的太长了。

2024-01-22 17:33:52 546

原创 一些k8s的小的报错记录

将导出的yaml文件中的如下字段删除。

2024-01-04 18:12:01 1229

原创 debian&ubuntu的nvidia驱动升级

nvidia驱动问题

2023-11-30 10:35:37 1426

原创 github记录列表

git大文件管理 nvidia exporter nfd 节点特征发现 中文榜 tg下载工具

2023-11-20 12:58:21 287

原创 nginx的GeoIP模块

geoip模块

2023-11-19 19:17:54 784

转载 服务类报错记录

单master节点部署es单节点,使用hostpath做为存储报错。解决:找到对应的hostpath设置目录权限为777即可。

2023-11-09 18:18:17 112

原创 H3C交换机报错

局域网内又有一台H3C的交换机的管理IP设置为202了,将另一台管理IP为202的交换机的管理地址更改一下即可。出现问题前,及时回想自己做的所有的操作,不要局限于对这台设备进行的操作。尽可能在大一点的角度上进行思考。

2023-11-02 11:12:31 375

原创 prometheus监控etcd证书报错问题

从nfs-client-provisioner中找到使用的nfs服务器的地址,远程到服务器中去,手动copy证书文件。找到Prometheus的部署文件发现挂载的是pvc存储卷,使用的集群中storageclass存储。一些排错的思路是可以学习的:比如看到etcd集群中的报错,是warn级别的,一般是客户端的报错。而在发现etcd报错之后,登陆k8s集群正常使用,证明etcd集群本身是没有问题的。集群中的etcd证书更新之后,没有同步到Prometheus的pod中去。在集群中查看etcd状态是正常的。

2023-10-27 17:23:11 646

原创 windows10专业版优化记录

WMI Provider Host (WmiPrvSE.exe) 进程是Windows 的重要组成部分,它通常都在后台默默运行,旨在帮助你Windows PC 上的其它应用程序来请求有关当前系统的各种信息。Diagnostic Policy Service 组件诊断服务。用来记录我的windows10专业版配置的所有设置。gpedit.msc打开本地组策略管理器。这样时不时资源管理器会占用CPU高。资源管理器占用CPU资源高。禁用的service的列表。占用cpu资源高,打开日志。

2023-10-26 14:52:48 126

原创 k8s的etcd启动报错

解决问题的方法,直接将节点1的etcd数据目录文件夹移除,尝试将etcd2上面的数据拷贝过来。是由于恢复快照数据失败。查看其他两个节点是否也有同样报错。6443端口无任何程序监听,判断可能是etcd出现了故障。电脑休眠状态意外断电导致虚拟机直接进入关机状态。etcd、api-server服务恢复。幸运的是节点2的etcd启动正常。kubectl命令使用正常。master节点上的容器。ps -a看到退出的容器。kubectl命令报错。kubelet服务报错。

2023-10-15 21:19:41 2909

原创 pod服务质量类别

读书笔记

2023-10-05 12:49:02 146

原创 k8s的node节点重启后pod不正常运行

org.freedesktop.systemd1

2023-09-26 10:08:51 682

原创 pve关闭windows虚拟机慢

/var/lock/qemu-server/lock-155.conf

2023-09-26 09:59:01 535

原创 kubeadm部署k8sv1.24使用cri-docker做为CRI

配置网络插件flannel,安装时候用了flannel中默认的pod和svc的地址段,所以直接apply就行无需更改任何内容。测试使用cri-docker做为containerd和docker的中间层垫片。查看当前的cgroup驱动是不是systemd,不是的话要更改。由于在局域网中配置了代理,所以不使用国内源。验证其他节点也能被调度。

2023-09-17 20:03:59 959

原创 zabbix监控H3C设备

zabbix监控H3C网络设备

2023-09-09 18:26:56 2380

原创 linux中校验文件的sha256sum值

查看sha256文件的内容是包含下载源文件的sha256值和源文件名的对照。同理的还有yum仓库,加载第三方库时,要先导入一个key密钥。下载源文件和校验文件进行校验,防止被中间人篡改文件内容。-c 从文件中读取sha256的值并校验。这里用helm软件包示例。

2023-08-05 21:10:27 1595

原创 Linux基础命令find练习

find练习

2023-07-20 22:00:50 194

原创 windows下go语言环境配置

因为我的网络环境中有openwrt做为局域网中的旁路由和一些其他的功能。所以使用goproxy默认的参数即可。找一些国内的源,如华为,阿里的源配置作为代理就好。解决:终端中进入到当前项目的文件夹执行。windows中的go环境变量。go.mod 缺少go模块。

2023-07-16 21:00:52 724

原创 vmware workstation中安装配置openwrt

vmware workstation openwrt

2023-07-05 18:18:04 3263

原创 windows下免U盘安装manjaro

windows中不使用U盘安装manjaro和Ubuntu23.04

2023-05-20 11:48:02 1516 1

原创 Ubuntu打开软件提示需要输入密钥环密码

enter password to unlock your login keyring.the login keyring did not get unlocked when you logged into your computer.

2023-02-21 18:53:02 5547

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除