使用机器学习来降低噪音

最新推荐文章于 2023-08-01 18:14:10 发布

chuche1931

最新推荐文章于 2023-08-01 18:14:10 发布

阅读量1.2k

点赞数

文章标签：人工智能数据库开发工具

原文链接：https://my.oschina.net/u/3585265/blog/3093586

版权

本文介绍了如何使用机器学习模型，特别是k-NN算法，从CI作业日志和其他系统日志中提取异常。Logreduce是一个Python工具，能够通过训练基线模型来删除日志中的基线事件，突出显示与基线有显著差异的异常行。它适用于Zuul CI作业，也可扩展到Journald和其他系统。未来计划包括优化报告、支持更多基准接口和建立公共数据集以促进异常检测研究。

摘要由CSDN通过智能技术生成

持续集成（CI）作业会生成大量数据。当一个作业失败时，弄清楚出了什么问题可能是一个繁琐的过程，它涉及到调查日志以发现根本原因 —— 这通常只能在全部的作业输出的一小部分中找到。为了更容易地将最相关的数据与其余数据分开，可以使用先前成功运行的作业结果来训练 Logreduce 机器学习模型，以从失败的运行日志中提取异常。

此方法也可以应用于其他用例，例如，从 Journald 或其他系统级的常规日志文件中提取异常。

使用机器学习来降低噪音

典型的日志文件包含许多标称事件（“基线”）以及与开发人员相关的一些例外事件。基线可能包含随机元素，例如难以检测和删除的时间戳或唯一标识符。要删除基线事件，我们可以使用 k-最近邻模式识别算法（k-NN）。

使用机器学习来降低噪音使用机器学习来降低噪音

日志事件必须转换为可用于 k-NN 回归的数值。使用通用特征提取工具 HashingVectorizer 可以将该过程应用于任何类型的日志。它散列每个单词并在稀疏矩阵中对每个事件进行编码。为了进一步减少搜索空间，这个标记化过程删除了已知的随机单词，例如日期或 IP 地址。

使用机器学习来降低噪音使用机器学习来降低噪音

训练模型后，

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用机器学习来降低噪音

持续集成（CI）作业会生成大量数据。当一个作业失败时，弄清楚出了什么问题可能是一个繁琐的过程，它涉及到调查日志以发现根本原因 —— 这通常只能在全部的作业输出的一小部分中找到。为了更容易地将最相关的数据与其余数据分开，可以使用先前成功运行的作业结果来训练 Logreduce 机器学习模型，以从...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。