什么是日志分析?
借助机器学习和深度神经网络(DNN)等技术,这些技术采用了跨越巨大Windows和Linux群集环境的下一代服务器基础结构。本文显示了Log Analytics在实时和日志数据的管理中发挥着重要作用。
此外,对于DNN,这些应用程序堆栈不仅涉及传统的系统资源(CPU,内存),而且还涉及图形处理单元(GPU)。
在非传统的基础架构环境中,Microsoft Research Operations团队需要高度灵活,可伸缩且Windows和Linux兼容的服务,以对整个堆栈进行故障排除和确定原因。
Log Analytics支持数十亿条记录的日志搜索,实时Analytics Stack度量标准收集以及跨众多来源的丰富自定义可视化。这些开箱即用的功能以及可用数据源的灵活性使Log Analytics成为通过跨DNN集群和组件进行关联来产生可见性和见解的绝佳选择。
日志文件的相关性可能因人而异。特定日志数据可能对一个用户有益但对另一用户无关。因此,在大型集群内部可能会丢失日志数据的使用。因此,最近日志文件的分析是重要的方面。
通过实时数据管理,用户可以使用日志文件进行决策。
但是,随着数据量的增加(以GB为单位),传统方法无法分析这么大的日志文件并确定有效数据。通过忽略日志数据,将创建大量相关信息。
因此,解决此问题的方法是使用深度学习神经网络作为日志数据的训练分类器。这样,无需人工读取整个日志文件数据。通过将日志数据的使用与深度学习相结合,可以获得相关的最佳性能和全面的操作可视性。
除了分析日志数据外,还需要将日志文件分类为相关和不相关的数据。使用这种方法,可以节省时间和性能,并获得接近准确的结果。
了解日志数据
首先讨论日志文件分析之前,我们应该了解日志文件。 日志是系统自动产生的数据,并存储有关操作系统内部发生的事件的信息。 它在每个周期存储数据。
日志数据可以以数据透视表或文件的形式显示。 在日志文件或表中,记录是根据时间排列的。 每个软件应用程序和系统都会生成日志文件。 日志文件的一些示例包括事务日志文件,事件日志文件,审核日志文件,服务器日志等。
日志通常是特定于应用程序的。 因此,日志分析是从日志文件中提取有价值的信息所急需的任务。
- 事务日志 数据库管理系统
它包含有关未提交的事务,回滚操作所做的更改以及数据库中未更新的更改的信息。它在崩溃时保留ACID(原子性,一致性,隔离性,耐久性)属性
- 消息日志 Internet中继聊天(IRC)和即时消息(IM)
对于IRC,它是在用户连接到频道的时间间隔内由服务器消息组成的。另一方面,为了实现用户IM的隐私,允许以加密形式将消息存储为消息日志。这些日志需要密码才能解密和查看。
- Syslog 网络设备(例如Web服务器,路由器,交换机,打印机等)
Syslog消息按位置,时间和原因(即IP地址,时间戳和日志消息)提供信息。它包含两位:设施(消息源)和安全性(日志消息的重要性程度)
- 服务器日志文件 Web服务器
它是自动创建的,并以三个阶段的形式包含有关用户的信息,例如远程服务器的IP地址,时间戳和用户请求的文档。
- 审核日志 Hadoop分布式文件系统(HDFS)ANN Apache Spark
它将记录在Hadoop平台上发生的所有HDFS访问活动
- 守护程序日志 Docker它提供有关容器
Docker服务和主机之间的交互的详细信息。通过组合这些交互,可以确定容器的周期和Docker服务内的中断。
- Pods Kubernetes
它是共享资源(例如单个IP_Address和共享卷)的容器的集合。
- Amazon CloudWatch Logs Amazon Web Services(AWS)
它用于使用日志数据监视应用程序和系统,即检查应用程序和系统中的错误。它还用于存储和访问系统的日志数据。
- Swift日志 Openstack
这些日志发送到Syslog并按日志级别进行管理。它们用于监视群集,审核记录,提取有关服务器的可靠信息等等。
如何进行日志分析?
日志分析的处理步骤如下所述
- 数据收集与清理
- 数据结构
- 资料分析
数据清理
首先,从各种来源收集日志数据。所收集的信息应准确而有用,因为接收到的数据类型会影响性能。因此,应从真实用户那里收集信息。每种日志都包含不同类型的信息。
数据收集之后,数据以关系数据库管理系统(RDMS)的形式表示。每个记录都分配有一个唯一的主键,并且开发了实体关系模型来解释数据的概念模式。
一旦正确配置了日志数据,就必须执行数据清理过程。这是因为可能存在损坏的日志数据的可能性。
日志数据损坏的原因如下:
- 存储日志数据的磁盘崩溃
- 申请异常终止
- 输入/输出配置的干扰
- 系统中是否存在病毒等
数据结构
日志数据既大又复杂。因此,日志数据的呈现方式直接影响它们与其他数据关联的能力。
一个重要方面是日志数据可以直接连接到其他日志数据,以便团队成员可以解释对日志数据的深刻理解。
下面给出了用于构造日志数据的步骤:
- 关于收集的日志数据的用法的清晰度
- 数据涉及相同资产,因此日志数据的值是一致的。这意味着可以使用命名约定
- 由于日志数据中存在嵌套文件,因此将自动创建对象之间的关联。最好避免从日志数据中嵌套文件。
数据分析
现在,下一步是分析日志数据的结构形式。这可以通过各种方法来执行,例如模式识别,归一化,使用机器学习进行分类,相关性分析等等。
日志分析的重要性
索引编制和爬网是两个重要方面。如果内容不包括索引和爬网,则数据更新将无法在一段时间内正确进行,并且重复值的机会将增加。
但是,通过使用日志分析,将有可能检查数据的爬网和索引编制问题。这可以通过检查Google抓取数据所花费的时间以及Google在哪个位置花费大量时间来执行。
对于大型网站,团队很难维护网站上所做更改的记录。通过使用日志分析,可以定期保留更新的更改,从而有助于确定网站的质量。
从业务的角度来看,Google经常抓取网站是一个重要方面,因为它指向产品或服务的价值。日志分析使检查Google查看页面站点的频率成为可能。
在页面站点上所做的更改应在那时快速更新,以保持内容的新鲜度。这也可以通过日志分析来确定。
自动获取真实的信息数据并衡量系统内的安全级别。
未完结。下一节更新知识发现和数据挖掘和日志数据挖掘。
笔者》德国斯图加特大学人工智能方向在读研究生,欢迎大家交流指教。