- 博客(110)
- 资源 (8)
- 收藏
- 关注
原创 部署stable-diffusion3.5 大模型,文生图
ComfyUI 集成大模型stable-diffusion3.5-large-turbo,打包好镜像一键运行
2024-11-07 10:28:40
671
原创 记录一次部署 k8s 集群无法启动
在网上找了一圈是有个containerd 的 cri 配置没有设置导致的,官方文档。,根据文档配置完成,重启 containerd 稍等容器启动后就恢复正常了。
2024-10-21 14:47:26
506
原创 k8s 集群给用户生成 kubeconfig 文件
在 k8s 集群的 RBAC 里有用到用户、组的概念,但是它又不直接管理这些资源,而是通过外部身份验证机制(Authentication Mechanisms)来管理和定义的,比如证书进行签名时,将其配置为 Subject: O = system:masters, CN = kubernetes-admin。O 代表用户组,CN 是用户,这些都是通过签署证书管理的。但是新版本可以直接通过命令去创建,我用的是 1.31。
2024-10-11 17:58:24
1014
原创 postgres数据库时间点恢复
背景:当数据库有问题的时候,比如说被删除数据,update目带where等,需要恢复到故障时间点之前测试版本:pg14。
2024-08-13 10:12:38
559
1
原创 如何自定义Prometheus metrics
prometheus.MustRegister 函数将 pingCounter 注册到默认的 Register 中。为了公开指标,Go Prometheus 客户端库提供了 promhttp 包。promhttp.Handler() 提供了一个 http.Handler,它公开了在默认寄存器中注册的指标。现在点击 localhost:8090/ping 端点几次并向 localhost:8090 发送请求更新指标counter。
2024-08-07 15:22:04
398
原创 通过go自定义alertmanager 发送通知的webhook
本文主要是大体介绍webhook的代码以及涉及到的服务部署,详细配置需要自己弄。
2024-08-07 10:10:15
910
原创 redis sentinel 部署
sdown 说明节点上的sentinel主观认为redis down了,-sdown 说明是客观down了,后面就进行+convert-to-slave 主从切换。Redis 监视名为 mymaster 的主服务器,该主服务器位于地址 127.0.0.1 和端口 6379,仲裁数为 2,3个节点设置2。parallel-syncs 在故障转移后可以同时重新配置为使用新主节点的副本数量,将此选项设置为 1,您可以确保一次只有一个副本不可达。建议版本不要太低 >= 6.2,我这里是redis 7.2.5。
2024-06-28 11:34:13
324
1
原创 postgres主从部署(repmgr故障自动切换)
这个hba文件是为了配置repmgr用户无密码访问repmgr数据库的,所以上面创建用户的时候没有设置密码,trust就是这个意思,还有其他的配置项可以看配置文件里的解释。repmgrd 作为运行在集群中每个节点上的一个管理和监控的守护程序,可以自动进行故障转移和维护复制关系,并提供有关每个节点状态的监控信息。到此已经完成了pg的主从搭建,目前也可以故障转移,但是需要手动操作,后面接着部署repmgr自动故障切换。下面安装的是14匹配的repmgr,如果是其他版本把14换成其他版本即可。
2024-06-28 10:28:12
1261
原创 服务器异常断电逻辑卷丢失处理
而通常情况下我们对PV/VG/LV的操作,除了格式化LV外,基本上都不会破坏实际存储的数据,只是对LVM的元数据进行操作。而此例实质也就是恢复了LVM的元数据而已逻辑卷名字:mysqlvgcat /etc/lvm/backup/mysqlvg # 查看PV ID号pvcreate -u blfaxf-3CER-4r4l-MS32-v0aN-s3Ta-DH08ZV(此内容为/etc/lvm/backup/data/文件中PV的ID号)/dev/sdb --restorefile /etc/lvm/b.
2021-10-14 10:47:59
528
原创 记一次k8s集群连接数据库超时错误
环境:k8s 1.18集群状况:集群程序连接数据库不稳定,偶尔出现connection timeout解决:由于进行了内核优化开启了net.ipv4.tcp_tw_recycle参数导致找到一个答案:当tcp_tw_recycle开启时(tcp_timestamps同时开启,快速回收socket的效果达到),对于位于NAT设备后面的Client来说,是一场灾难——会导到NAT设备后面的Client连接Server不稳定(有的Client能连接server,有的Client不能连接server)。也就
2020-10-20 13:55:46
2155
1
原创 Kube-Prometheus Operator 报警 KubeControllerManagerDown
报错信息:KubeControllerManager has disappeared from Prometheus target discovery.集群版本:k8s 1.18kube-prometheusr elease1.6docker 19.3根据ServiceMonitor—> Service—>endpoints(pod) 服务发现机制查看到KubeControllerManager没有对应的svc 所以我们需要创建svc,配置文件如下:kind: Service
2020-09-30 16:00:32
2285
3
原创 记一次kube-prometheus stack 突然无法正常运行
现象:有某几个相关pod一直在重启k8s是由rancher托管维护,rancher自带监控安装Prometheus Operator,kube-prometheus安装的Prometheus Operator 会与之冲突,造成无法正常工作,删除rancher自带Operator 就OK
2020-09-15 16:38:55
718
原创 k8s删除namespace,显示Terminating状态,无法删除(1.18)
kubectl edit namespaces Name通过命令编辑,删除所标记字段既可,保存退出。其他资源有此状况,可以找下是否有此字段
2020-06-28 22:22:31
878
转载 git只克隆仓库某个目录
# 为了启用"Sparse Checkout"功能,需要将git选项core.sparsecheckout为true:$ git config core.sparsecheckout true# 创建一个与要clone的仓库同名或不同命的目录$ mkdir models $ cd models$ git init #初始化$ git remote add origin https://github.com/tensorflow/models.git # 增加远端的仓库地址$ git conf
2020-05-27 17:34:36
3159
原创 Elasticsearch维护方法汇总
节点下线集群中个别节点出现故障预警等情况,需要下线,也是 Elasticsearch 运维工作中常见的情况。如果已经稳定运行过一段时间的集群,每个节点上都会保存有数量不少的分片。这种时候通过 reroute 接口手动转移,就显得太过麻烦了。这个时候,有另一种方式:curl -XPUT 127.0.0.1:9200/_cluster/settings -d '{ "transient" :{...
2020-03-14 10:02:54
595
原创 使用PodPreset向pod添加选项
使用场景:如果某些pod的镜像是其他人做好的,咱们又不方便修改,但是要向里面批量添加一些配置,可以使用PodPresetk8s默认没有开启,开启方法如下# 查看是否开启kubectl api-versions|grep setting# 开启方法,k8s集群,添加如下配置--runtime-config=settings.k8s.io/v1alpha1=true# minikube...
2020-03-09 14:25:51
483
原创 k8s deployment问题排查思路
端口回顾现在我们来快速回顾一下哪些端口和标签应该匹配:Service selector 应与 Pod 的标签匹配Service 的 targetPort 应与 Pod 中容器的 containerPort 匹配Service 的端口可以是任何数字。多个服务可以使用同一端口,因为它们分配了不同的 IP 地址Ingress 的 servicePort 应该匹配 Service 的 port...
2020-02-29 16:41:03
2197
原创 简单快速安装 Minikube(Ubuntu)
官方安装文档下载安装包curl -LO https://storage.googleapis.com/minikube/releases/latest/minikube_1.7.2-0_amd64.deb \ && sudo dpkg -i minikube_1.7.2-0_amd64.debHypervisor Setup# 我在虚拟机上运行,输出 noegrep ...
2020-02-18 16:48:02
705
原创 [debug] error converting YAML to JSON: yaml: line 72: did not find expected '-' indicator
问题描述:[debug] error converting YAML to JSON: yaml: line 72: did not find expected ‘-’ indicator解决:由于yaml文件对其不统一造成的,例如:# 格式1ports: - port: 2019# 格式2ports:- port: 2019yaml格式要对其,不用有tab...
2020-01-17 16:32:36
15359
2
原创 metrics-server安装
To install metrics-server from GitHub on an Amazon EKS cluster using a web browserDownload and extract the latest version of the metrics server code from GitHub.Navigate to the latest releas...
2019-11-22 16:39:46
1218
原创 alpine镜像crontab无法运行问题
定时文件目录:/etc/crontabs下以用户名命名的文件,例如:cat /etc/crontabs/root# min hour day month weekday command*/15 * * * * run-parts /etc/periodic/15min0 * * ...
2019-11-13 15:56:08
2358
原创 dockerfile 的ADD和COPY规则记录
ADDdockerfile 19版本文档,拷贝命令用的比较频繁,如果规则不注意,会达不到预期效果,供后期查阅ADD has two forms:ADD [--chown=<user>:<group>] <src>... <dest>ADD [--chown=<user>:<group>] ["<src>...
2019-10-16 09:59:06
2818
原创 Publish Over SSH插件拷贝文件不成功
主要问题是目录路径问题:如图:Source files 相对路径是项目工作目录,Romote directory 相对于 系统管理->系统设置->Publish over SSH 的ssh server的Remote Directory而言的,Romote directory再添加相当于添加子目录,没有会自动创建路径配置手册...
2019-08-27 16:09:27
2434
1
原创 ERR_CONTENT_LENGTH_MISMATCH 问题
网站加载缓慢,打开浏览器调试模式,发现ERR_CONTENT_LENGTH_MISMATCH 问题,但是能直接访问到相关文件内容,由于nginx只启用代理,所以去查看了日志,发现open() "/var/lib/nginx/proxy/5/13/0000000135" failed (13: Permission denied)找到相关目录,属主为nginx用户即可...
2019-05-20 15:03:54
2614
原创 traefik代理给nginx加ssl证书
traefik开启https,请求进入后跳转:80–>443,通过traefik后,是以http方式请求后端服务运行docker-compose文件如下:version: "2"services: proxy: image: traefik command: --web --docker --logLevel=DEBUG networks: -...
2019-05-10 15:52:42
1238
原创 docker构建镜像时使用copy命令提示:COPY failed
问题描述:COPY failed: stat /var/lib/docker/tmp/docker-builder914716239/bin: no such file or directory首先看是否有这个文件其次搞清楚dockerfile的上下文,拷贝文件命令使用和dockerfile同级目录的相对目录,而构建镜像时要指定dockerfile的目录,这个目录就是dockerfile的上...
2019-05-10 15:36:17
11257
原创 FEK组合分析nginx日志(Fluentd Elasticsearch kibana)
文章目录容器分开创建容器启动步骤fluentd配置nginx日志json格式化fluentd要点docker-compose方法启动troubleshooting容器分开创建容器启动步骤# elasticsearchdocker run -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" elasticsearch:6.6.1...
2019-05-08 09:23:39
1895
原创 traefik添加证书报错:404 page not found
traefik作为前端代理,http协议是正常的,但是添加HTTPS证书就出现404,解决方法如下:traefik.toml 的ssl配置如下# 默认是http入口,要开启https入口才可访问defaultEntryPoints = ["http","https"][entryPoints] [entryPoints.http] address = ":80" [entr...
2019-05-05 16:14:40
3931
原创 docker swarm模式下的traefik反向代理
文章目录安装docker安装docker-compose swarm安装dcoker-compose启动docker swarm模式创建服务安装docker# 卸载老版本apt-get remove docker docker-engine docker.io containerd runcapt-get updateapt-get install apt-transport-https...
2019-04-26 10:21:16
1349
原创 搭建基于Ubuntu的k8s单主节点
以11.1.1为例,不知道版本默认安装最新版以下是官方搭建环境要求,大概意思需要2核2G配置,相关端口不要被占用Installing kubeadmOne or more machines running one of:Ubuntu 16.04+Debian 9CentOS 7RHEL 7Fedora 25/26 (best-effort)HypriotOS v1.0.1+C...
2019-01-02 11:01:32
1720
原创 Dockerfile、docker-compose传入环境变量方法总结
Dockerfile1 使用系统环境变量,例如docker run -e VARIABLE=VALUE ...web: image: "webapp:${TAG}"2 通过environment设置,这种方法适用于正在运行的容器里,调用特定变量,可登陆容器输入env命令查看,例如docker run -e VARIABLE ...web: environment: - D...
2018-12-18 16:31:54
28961
原创 linux系统共享库搜索路径及配置
有些服务启动会调用共享库,如果没有就会报错,或者在默认目录下无法找到文件,那么linux系统的共享库路径在哪里呢?默认的动态库搜索路径:/lib/usr/lib也可以自定义配置路径,把路径写入/etc/ld.so.conf文件执行ldconfig命令使路径生效查看命令依赖的库:ldd /bin/ls...
2018-11-21 15:39:49
596
原创 k8s V1.11.1报错:The connection to the server localhost:8080 was refused
问题描述:# 安装flannel插件时报错root@test:~# kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/v0.10.0/Documentation/kube-flannel.ymlunable to recognize "https://raw.githubusercontent.com/core...
2018-09-19 16:13:01
13070
3
tomcat7+redis会话共享依赖jar包
2017-11-18
Python3.5手册
2017-09-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人