- 博客(127)
- 收藏
- 关注
原创 istio代理集群外部的gitlab
原因是:外部client使用https请求到istio的gw后进行tls终止/卸载,使用http请求后端同样是只有http协议的gitlab服务,gitlab根据external_url返回重定向到http链接再返回给外部client导致外部client访问从https变成http。在vs里面添加headers告诉gitlab客户端是来自https的请求,服务端gitlab在收到istio的请求后,重定向至https上,需要实现:通过gitlab.aa.bb.cc.cn来访问集群外的gitlab服务。
2024-09-19 11:54:15 799
原创 kubeadm使用命令行更新apiserver的certSANs
私有云上有一个LB资源,考虑将扩容后的master节点上的apiserver服务绑定至lb上,做高可用。需要把apiserver得ca证书中的X509v3 Subject Alternative Name即SAN字段中添加lb的IP地址。由于集群中安装了kubesphere后,由kubeadm生成的cr被kubesphere的ks-install覆盖了,不能使用网上的传统的kubeadm导出配置文件,添加ip,重新应用至集群这种方法失效。先查看单节点中的apiserver的证书中是不包含lb的IP地址的。
2024-09-18 16:04:04 266
原创 基于open-gpu-kernel-modules的p2p vram映射bar1提高通信效率
bar1 Base Address Register 1 用于内存映射的寄存器,定义了设备的内存映射区域,BAR1专门分配给gpu的一部分内存区域,允许cpu通过pcie总线直接访问显存VRAM中的数据。但bar1的大小是有限的,在常规的4090上,bar1只有256M,基于nvidia开源的open-gpu-kernel-modules模块通过将bar1的寄存器地址增大至32G来提高计算效率。因为机器上的CC和编译内核使用的gcc不是同一个版本,所以这里手工指定make使用哪个gcc。
2024-09-18 14:50:28 249
原创 LSI-9361阵列卡笔记
注意的点是要先将raid模式调整为JBOD之后重启机器,即可。要将raid0更改为JBOD直通模式。备注:转换过程中硬盘中的数据未丢失。
2024-08-21 20:06:33 299
原创 ubuntu2204掉驱动
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
2024-07-29 16:46:46 435
原创 nvidia笔记链接
nccl通信库https://blog.csdn.net/qq_43219379/article/details/123436895https://developer.nvidia.cn/nccl
2024-07-24 12:02:21 103
原创 pve笔记
一个思路:可以将控制台输出从default改为串口输出serial0口,但应该要配置宿主机的grub,备注:由于宿主机上存在多台短期不可停机的虚拟机,所以上述思路未经过测试。pve配置显卡直通到虚拟机后,控制台无法显示。
2024-07-24 11:53:00 452
原创 ubuntu2204配置anaconda&cuda&4090nvidia驱动
ubuntu2204配置anaconda&cuda&4090nvidia驱动
2024-07-18 11:44:51 1104
原创 kubesphere自定义流水线基础镜像
refer注意点是要在最下面的中添加自定义的基础镜像,直接复制粘贴更改name和image和label字段即可,注意containers的name字段。args: ""volumes:yaml: |spec:affinity:values:- ciresources:requests:limits:volumes:configMap:items:这点有个小技巧,可以通过ks的图形化界面那里选择node的时候,有个下拉框里面看看是否有自定义的label名字pipeline {
2024-07-01 18:41:53 436
原创 gitlab升级16.11.3-ee
gitlab两种https实现,一种是买第三方的https证书手工配置到nginx上,一种是使用gitlab内置的acme一个证书签发管理工具生成https证书实现加密。pg数据库报错token设置不符合约束,是gitlab配置的token有效期不能设置为永不过期。根据官网给的升级路径工具指出要跨多个版本 需要先升级至中间版本状态,再升级至目标版本。gitlab版本为14.6.2-ee升级至16.11.3-ee。升级至14.9.5过程中的问题。解决:升级pg到指定版本13。继续升级,后续升级无报错。
2024-06-18 09:29:28 1236
原创 k8s更改master节点IP
搭建集群的同事未规划网络,导致其中有一台master ip是192.168.7.173,和其他集群节点的IP192.168.0.x或192.168.1.x相隔太远,现在需要对网络做整改,方便管理配置诸如绑定限速等操作。解决:在活着的master上更改kube-system ns下的kubeadm-config这个cm。使用etcdctl命令将要更改IP的master节点踢出集群。master节点是3节点的。
2024-06-04 17:02:48 1012
原创 k8s中修复mongodb启动失败
file:WiredTiger.wt, connection: __wt_btree_tree_open, 577: WiredTiger has failed to open its metadata Raw: [1712915546:365392][1:0x7fc65c8f1080], file:WiredTiger.wt, connection: __wt_btree_tree_open, 577: WiredTiger has failed to open its metadata
2024-04-15 11:45:59 554
原创 流水线报错
给项目A指定了一条流水线,后面发版是项目同事自己发,这个项目中的服务越来越多,导致这个串行流水线越来越长。at hudson.model.Executor.run(Executor.java:432)报错。临时解决方法,先注释掉一些本次发版不用的stage,之后改为并行流水线。大概意思就是流水线写的太长了。
2024-01-22 17:33:52 546
原创 H3C交换机报错
局域网内又有一台H3C的交换机的管理IP设置为202了,将另一台管理IP为202的交换机的管理地址更改一下即可。出现问题前,及时回想自己做的所有的操作,不要局限于对这台设备进行的操作。尽可能在大一点的角度上进行思考。
2023-11-02 11:12:31 375
原创 prometheus监控etcd证书报错问题
从nfs-client-provisioner中找到使用的nfs服务器的地址,远程到服务器中去,手动copy证书文件。找到Prometheus的部署文件发现挂载的是pvc存储卷,使用的集群中storageclass存储。一些排错的思路是可以学习的:比如看到etcd集群中的报错,是warn级别的,一般是客户端的报错。而在发现etcd报错之后,登陆k8s集群正常使用,证明etcd集群本身是没有问题的。集群中的etcd证书更新之后,没有同步到Prometheus的pod中去。在集群中查看etcd状态是正常的。
2023-10-27 17:23:11 646
原创 windows10专业版优化记录
WMI Provider Host (WmiPrvSE.exe) 进程是Windows 的重要组成部分,它通常都在后台默默运行,旨在帮助你Windows PC 上的其它应用程序来请求有关当前系统的各种信息。Diagnostic Policy Service 组件诊断服务。用来记录我的windows10专业版配置的所有设置。gpedit.msc打开本地组策略管理器。这样时不时资源管理器会占用CPU高。资源管理器占用CPU资源高。禁用的service的列表。占用cpu资源高,打开日志。
2023-10-26 14:52:48 126
原创 k8s的etcd启动报错
解决问题的方法,直接将节点1的etcd数据目录文件夹移除,尝试将etcd2上面的数据拷贝过来。是由于恢复快照数据失败。查看其他两个节点是否也有同样报错。6443端口无任何程序监听,判断可能是etcd出现了故障。电脑休眠状态意外断电导致虚拟机直接进入关机状态。etcd、api-server服务恢复。幸运的是节点2的etcd启动正常。kubectl命令使用正常。master节点上的容器。ps -a看到退出的容器。kubectl命令报错。kubelet服务报错。
2023-10-15 21:19:41 2909
原创 kubeadm部署k8sv1.24使用cri-docker做为CRI
配置网络插件flannel,安装时候用了flannel中默认的pod和svc的地址段,所以直接apply就行无需更改任何内容。测试使用cri-docker做为containerd和docker的中间层垫片。查看当前的cgroup驱动是不是systemd,不是的话要更改。由于在局域网中配置了代理,所以不使用国内源。验证其他节点也能被调度。
2023-09-17 20:03:59 959
原创 linux中校验文件的sha256sum值
查看sha256文件的内容是包含下载源文件的sha256值和源文件名的对照。同理的还有yum仓库,加载第三方库时,要先导入一个key密钥。下载源文件和校验文件进行校验,防止被中间人篡改文件内容。-c 从文件中读取sha256的值并校验。这里用helm软件包示例。
2023-08-05 21:10:27 1595
原创 windows下go语言环境配置
因为我的网络环境中有openwrt做为局域网中的旁路由和一些其他的功能。所以使用goproxy默认的参数即可。找一些国内的源,如华为,阿里的源配置作为代理就好。解决:终端中进入到当前项目的文件夹执行。windows中的go环境变量。go.mod 缺少go模块。
2023-07-16 21:00:52 724
原创 Ubuntu打开软件提示需要输入密钥环密码
enter password to unlock your login keyring.the login keyring did not get unlocked when you logged into your computer.
2023-02-21 18:53:02 5547
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人