极客时间《AIOps 训练营》结课总结

结课了,感觉时间过得好快,一转眼又是小4个月过去了

当初开课时有多觉得课程周期长,现在赶作业就有多觉得课时多,真的是好累好开心

不想刻板的对课程内容做总结,下面以大白话的形式分几点总结一下学习的感受(其实是还有好多知识没消化吸收,总结不出来)

报名背景与初衷

目前在一个初创公司做运维,团队很小,运维只有我自己。当初是从域名备案开始,一点儿一点儿搭起来的业务平台。
也正因为如此,我在运维工作中自由度很高,很多技术改进工作很容易就能得到支持。

从云主机到k8s容器化,从单注册中心到配置注册双中心,完善监控告警,整合日志链路,构建CI/CD。
经历的技术栈也是不断的在更新,而这在24年初戛然终止,前半年感觉自己的工作没有太多进展。

因为不知道要做什么了,虽然一切关系到业务稳定性的工作都应该是SRE的范畴,但压力测试、混沌工程那些相对于目前的基础确实是另外挺庞大的技术分支。
而目前所做的可观测性平台,也只是辅助开发排查一下bug,运维接收一下告警,还远远达不到智能化,看着收集起来的数据,很想让它们活过来。

所以,我打算学习AIOps,做智能分析,尝试解决运维中各种问题。为此,从人工智能基础开始学,那叫个枯燥。
这时,这个课程出现了。那个男人说不用学算法了,大模型能解决很多问题。于是了解完课程之后没怎么犹豫就报了名。

学习过程

正因为我的工作给我的便利,导致我的学习过程很特殊,我是先找贴近工作的技术栈去学,去落地,然后再去学高深一些的知识。

比如课程开头的IaC,我们在用阿里云,之前一直是控制台手动点点点,这不利于操作规范化,也不利于审计。
当时学完了这部分就纳入了工作规划,目前大部分都是使用terraform来管理,VPC部分还学到了更多的安全防护方面的特性,不过网络调整需谨慎,还得慢慢来。
现在勉强有个gitops的雏形了。

RAG部分在运维工作中还没规划,反倒是产品同事挺感兴趣,跟着一起调研了一下,目前看意思是打算接入产品文档模块了,不过也不一定是RagFlow,这方面的平台也挺多的。
后面是用三方大模型服务,还是自建大模型还是得对比一下效果,评估一下成本。这么一说,大模型运维工作有可能就来了,你看课程加餐加的多及时。

operator部分是目前实践得最痛快的,没有留小尾巴,之前工作中用到的k8s日志收集机制 (filebeat -> kafka -> logstash -> es) 中,
filebeat是以daemonset的方式每个worker部署一个,filebeat与当前微服务pod之间通过hostpath形式的volume共享日志文件。
这里面有个问题是POD删除后,日志文件不会清除,之前的做法是另起一组daemonset,定时跑脚本,查询podList,和已有文件目录做差异化对比,清理掉过期的日志文件。
这种方式很粗暴,每个日志文件没有固定的冷却期。恰好是个operator练手的小项目,通过监控pod删除事件,引用内置的队列,实现日志文件清理。

在课程中可观测性的内容,给我带来最大收获的是eBPF部分,之前只是听说过,没特别去了解,学过之后发现可以这么玩。零侵入的收集数据,还很彻底。
有时间一定要更细的学习一下。

目前最想实践的是 训练流量预测模型实现自动扩容 的部分,感觉这个东西挺有挑战性的,课程里都没针对这部分留作业,可见难度之高。
但这部分反倒是我学习AIOps的初衷,我想利用好收集到的数据,让它们活过来。深入学习之后肯定不可避免的还是要理解模型训练,数据清洗等技术。

学习感悟

这个课程很全面,内容很多,是AIOPS领域很好的入门指南。
但这个领域的每个细分内容都不简单,想要更好的掌握还是要多研究多学习,最终形成属于自己的各个场景下的最佳实践。


在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值