raylg960-CSDN博客

原创 DBAIops社区版新版本发布说明

研发团队会根据需求的规模制定发车计划，最快的情况下，可以跟着当月发车的版本一起发布。这个工具与原有的专家问诊系统分离主要还是权限的问题，作为监控与诊断方面的工具，只需要获取最小的数据库与操作系统访问权限，而数据库高可用管家需要具有读取数据库用户数据的权限以便于进行数据校验，同时还需要在数据库中创建并更新心跳表，从而更好的对复制延时进行精准评估。随着疫情结束，D-SMART社区版的发布也将恢复到去年的模式，每个月20-25号之间发布一个新的更新版本，不断迭代功能和修复旧版本的BUG。

2023-09-19 17:32:53 199

转载数据库领域的大语言模型应用时代已经开启了

利用VectorStore存储向量化的知识，通过langchain和大语言模型之间构建协同，在语言模型上，目前DB-GPT只支持Vicuna，Vicuna-13B需要占用20GB+的显存，在我的24GB的老破小上跑起来有点卡，所以我选择了VICUNA-7B，ChatGLM目前还没实现对接，我修改了一下loader.py的代码，llmserver是启动起来了，不过在推理时还是有些问题，可能还需要再调整一下代码，今天我会继续尝试。经过一天的折腾和不断踩坑后，DB-GPT终于在我的台式机上跑起来了。

2023-09-19 17:31:00 179

转载智能运维中应用大语言模型的一些思考

最近尝试了一个新的开源项目DB-GPT，这个结合了VICNUA-13B，AUTOGPT，FSCHAT，AUTOPROMPT，LANGCHAIN等技术的开源项目还是挺值得关注的，虽然目前还只是项目的初期阶段，不过最近更新的第二个版本从功能框架上已经有模有样了。月底要截至，所以周末要弄好。通过LANGCHAIN快速构建外挂的本地知识库是一条实现成本较低的路线，结合AUTOPROMPT，可以利用训练好的基础模型来完成复杂的工作任务，不过这方面也是有局限性的，基础模型不行，知识库的应用效果就不行。

2023-09-19 17:16:51 239

转载 D-SMART对接OceanBase4 看 OB 的可观测性：值得夸赞的和要吐槽的都不少

后来通过和OB的同学沟通才了解到，OB的这个指标是把租户所有的CPU线程的使用率加在一起的统计值，如果要获得某个OBSERVER上某个租户的CPU使用率，还要除以某个OBSERVER上租户CPU线程数才能得到正确的指标。另外一个需要吐槽的是，针对OB这样复杂的数据库系统，在OB的文档中对指标的描述和定义是十分模糊的，估计OB内部的同学看了这些描述都会摸不着头脑，更不要说OB用户了。利用以前为OB 3.X编制的运维知识图谱，也可以对系统进行相关的诊断，好像分析的准确性还可以，大体的故障范围定义的还不错。

2023-09-19 16:50:16 275

转载利用OSCAR的可观测性能力构建运维知识系统

指标的采集还是完成得比较顺利的，在TOP SQL采集上我们遇到了一些问题，OSCAR没有类似ORACLE 的V$SQL（OSCAR的V$SQLSTAT里并不包含内存中SQL的完整统计信息），也没有类似pg_stat_statement这样的插件，v$session中的SQL_ID也总是空的，因此我们无法完成TOP SQL的采集工作，只能通过慢SQL采集来获得一些SQL语句。封板并不是本期研发的终点，而仅仅是实验室构建的完成，最重要的一步是后续的实际生产环境验证与运维知识的实战化构建工作。

2023-09-19 16:46:03 100

转载关于运维监控中告警收敛问题的讨论

整个系统的表空间使用率风险是0，这是最低的等级，表明没有任何风险，刚才我们看到的97.75%使用率的USERS表空间的风险等级也是如此。我们来看上面的例子，USERS表空间的使用率是97.75,容量是32GB，实际上如果从Oracle的dba_free_space来看，这个表空间已经是100%了，只是因为这个数据文件是自动扩展的，监控系统自动根据ASM磁盘组的容量给这个表空间赋予了32GB的动态容量，同时自动将表空间使用率调整为97.75。实际上很多指标并不能很好的指示风险，比如说表空间使用率的问题。

2023-09-19 16:36:33 128

转载自成长智能运维模型

知识图谱中存储的是通过高度抽象后的知识数据。核心框架代码维持稳定的情况下，随着指标数据的持续输入，模型抽象模块依靠知识图谱不断的对数据进行加工，不断动态调整和优化在线分析引擎和离线分析引擎，同时根据已知的分析结果，自动调整知识图谱，生成新的顶点和边。造成这种局面的主要原因还是此类智能运维系统的基础架构问题导致的，传统的软件是基于“目标”的软件，其逻辑都是根据目标预先编制好的，为实现某个已知的特定目标而设定好具体的目标，设计出具体的实现路径，完成软件基础能力框架的设定，最后开发出软件系统。

2023-09-19 16:21:39 77

转载故障定位需要什么样的能力

某个现象关联的因素，每个指标意味着的现象，每个等待事件产生的因素，实际上并不是混沌和无序的，是有一定的关系的，如果我们能够把这些因素都找出来，或者能够根据当前的一些特殊系统特征发现出来，那么对于后续的问题定位十分有益。不过实际上我们面临的运维环境十分复杂，如果系统中的SQL总是能够被认真的优化，那么运维就轻松多了，而实际上DBA与写SQL的研发人员，很多时候还是要相互体谅的，能够通过运维解决的问题，还是先通过运维来解决吧。这部分工作如果需要用自动化系统来做，那么构建这些关系的运维知识图谱是十分有效的。

2023-09-19 16:15:33 86

转载 DBAIOPS社区正式上线

虽然如此，大家干活都是蛮认真的，D-SMART社区版的研发团队每天都是最后离开公司的研发团队。坏笑的和我说：“老徐，你这个产品最核心的不是软件本身，而是其中的知识，用你的产品，会产生我们对你的依赖，你太坏了！因此我希望广大用户可以理解这一点，同时技术共享和知识共享是D-SMART的知识库能够不断快速迭代的重要因素，因此我也希望用户如果遇到一些D-SMART的故障模型没有发现的故障的时候，能够把监控数据分享给社区，这样社区就能够找专家来做根因分析，并总结出新的故障模型，充实到D-SMART中去。

2023-09-19 15:51:51 185

转载智能系统和专家系统

不过很多号称是智能化运维系统的，和传统的运维监控系统并没有本质上的区别，可能监控的内容更多一些，能够展示的数据也多了起来，展示数据的维度也比以前丰富。同样是优化工具中心，智能化运维系统的实现方式是完全不同的，不仅仅能够根据专家系统预设的工具推荐PG可以使用的优化工具，并且能够自动根据当前的数据，自动对系统进行快速分析，发现其中可能存在的异常。比如说上面这个IO分析的案例，虽然我们通过异常检测算法发现了上述的指标存在问题，似乎带上了“智能化”，但是这种智能化能力其实对我们的运维是完全不够用的。

2023-09-19 15:39:26 104

u011121032的专栏