我们处理了10亿个Java记录的错误-这是导致97%的错误的原因

97%的记录错误是由10个唯一错误引起的

在2016年,一件事已经30年没有改变了。 开发和运营团队仍依靠日志文件对应用程序问题进行故障排除。 由于某些未知原因,我们隐式地信任日志文件,因为我们认为事实隐藏在其中。 如果您足够努力地进行grep编写或编写完美的regex查询,答案将神奇地呈现在您面前。

是的,诸如Splunk,ELK和Sumologic之类的工具已使搜索日志变得更快,但所有这些工具都受一件事–操作噪音的困扰。 运营噪音是当今IT和您的企业的无声杀手。 这就是为什么无法发现应用程序问题并需要花费数天才能解决的原因。

日志现实

这是现实,您只会记录认为会破坏应用程序的内容,并且会受到记录的数量的限制,而不会在应用程序上产生不必要的开销。 这就是为什么通过日志记录进行调试在生产环境中不起作用以及为什么大多数应用程序问题都未被发现的原因。

假设您确实设法找到了所有相关的日志事件,但这还不是故事的结尾。 通常,所需的数据通常不在其中,并且您还可以添加其他日志记录语句,创建新的构建,测试,部署并希望错误再次发生。 哎哟。

分析时间

Takipi,我们捕获并分析生产中Java应用程序抛出的每个错误或异常。 通过分析Takipi监视的1,000多个应用程序,我发现了这些实用信息。

高层次的总体发现:

  • 平均 Java应用程序每月将引发920万个错误
  • 平均 Java应用程序每月产生大约2.7TB的存储
  • 平均 Java应用程序每月包含53个唯一错误
  • 按频率列出的前10个Java错误分别是
    • 空指针异常

因此,有了它,讨厌的NullPointerException就应该归咎于日志文件中所有损坏的内容。 具有讽刺意味的是,检查null是2004年我是一名Java开发人员时在我的第一次代码审查中获得的第一个反馈。

是的,以下是过去30天中随机选择的企业生产应用程序中的一些数据:

  • 25个JVM
  • 29,965,285个错误
  • 约8.7TB的存储空间
  • 353个唯一错误
  • Java发生频率最高的错误是:
    • NumberFormatException

故障排除时间(射击)

因此,您从事开发或运营工作,并且被要求对上述每天产生一百万个错误的应用程序进行故障排除,该怎么办? 好吧,让我们放大应用程序出现问题的时间吗?

让我们选择一个15分钟的时间段。 但是,在那15分钟内,您仍然会看到10,416个错误。 您现在看到了称为操作噪音的问题吗? 这就是为什么人类今天要努力检测应用程序并对其进行故障排除……并且不会变得更加简单。

如果我们只修复了10个错误该怎么办?

现在,假设我们在上述应用程序中修复了10个错误。 您认为这10个错误对应用程序每月产生的错误计数,存储和操作噪声有何减少?

1%,5%,10%,25%,50%?

大约97.3% 。 是的,你读过。 在此应用程序中仅修复10个错误将减少97.3%的错误计数,存储和操作噪声。

在过去30天内抛出的总29,965,285个错误中,该应用程序中按频率最高的10个错误是29,170,210个错误的原因。

废话少说

绝大多数应用程序日志文件包含重复的废话,您需要支付这些废话来管理IT环境中的每一天。

您支付:

  • 磁盘存储以托管服务器上的日志文件
  • 日志管理软件许可证可通过网络解析,传输,索引和存储此数据
  • 运行您的日志管理软件的服务器
  • 人类来分析和管理这种运行噪音

解决操作噪声的最简单方法是修复应用程序错误而不是忽略它们。 这不仅可以极大地改善团队的运营洞察力,还可以帮助他们发现更多问题并更快地进行故障排除,因为他们实际上会看到损害您的应用程序和业务的事物。

解决方案

如果要确定并修复应用程序中的前10个错误,请免费下载Takipi ,将其粘贴在几个生产JVM上,等待几个小时,按频率对捕获的错误进行排序,然后单击一下Takipi将向您显示确切的错误。引起它们的源代码,对象和变量值。 您的开发人员将在几个小时内就能进行所需的修复,而Bob将成为您的叔叔

下次在生产环境中进行代码部署时,Takipi将立即通知您所引入的新错误,您可以重复此过程。 我们通过两种方式在Takipi使用Takipi来检测SaaS平台中的新错误:

Slack实时通知 ,可在发生错误时立即通知我们的团队生产中出现的每一个新错误,并提供一键式链接以准确地找出根本原因(导致错误的源代码,对象和变量值)。

松弛

电子邮件部署摘要报告显示了前5大新错误,并直接链接到确切的根本原因。

tkp摘要

最后的想法

我们一次又一次地看到,生产中最重要的几个记录错误正在浪费大部分时间并记录了资源。 这些最严重的事件造成的损害(每次发生数百万次)与解决这些问题所花费的时间和精力不成比例。

本周晚些时候,我们将发布导致这些错误的十大异常类型。 敬请关注。

翻译自: https://www.javacodegeeks.com/2016/05/crunched-1-billion-java-logged-errors-heres-causes-97.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值