Datadog——Monitor as a service(笔记)

1. DataDog公司做什么的?

为云端软件基础设施提供全栈的性能监测,监测的对象有:最顶端的应用程序,到中间的 Kubernetes/Docker/Hypervisor,到操作系统,以及中间的数据库,第三方服务等。

Datadog 试图做到的是将企业原本的十几个到最多几十个互相割裂的 IT 监测系统整合成一个,既提高监控效率,又降低企业的 IT 支出。

2. 应用程序监测出现背景:

1) 企业内部的系统在使用时出现了问题,使用的用户就会发送请求帮助的 Ticket(即请求 IT 部门协助的系统内部消息,填写故障描述等)。每个团队(windows团队、网络团队、数据库团队)都有一个自己的工具包监测自己辖下的信息系统,这些性能监测工具都不相连,当故障出现的时候,这些团队要进行交流,拼出全貌。

2) 软件更新迭代太快,新的功能改善如果都等候人工测试或用户故障汇报,效率过低,可以自行使用软件机器人等技术模拟测试任何新老应用的运行环境,配合实时监控系统,可以大大减少宕机时间和资源成本。

3) 远程办公时,同时接入公司网络或云端系统,需要统一的网络面板进行网络监测。

3. 性能监测的数据支柱

1)Log日志:均包含时间信息和事件背景纪录,事件日志对发现系统的紧急或不可预见错误非常有用。

Log作用:因为复杂的分布式系统发生故障,可能同时多个高度相连的组件中的多个事件触发的,如果要找到故障的所有触发点,就必须需要首先找到一个Log日志所显示的症状入手,然后推断这个请求在分布式系统的整个声明周期,最后在此过程中通过迭代检查系统各部件的互动作用。

Log日志的生成很容易,但性能却参差不齐。如果 logging 没有足够的优化,可能也会影响应用程序的运行。

Datadog(收购回来的 Logmatic)就是基于 Elastic 的架构的事件管理系统。

2) Metric:测量一段时间内数据的量化表示,例如:系统性能指标,包括请求成功率、系统吞吐量、响应时长;资源性能指标,衡量系统软硬件资源使用情况,配合系统性能指标。Metric在默认情况下是结构化的,这使得查询和优化存储变得更加容易,也使得能保留更长的时间。

Metric 可以利用数学模型和预测来获取对系统在过去或未来一段时间内的行为的掌握。

3) Trace:记录在分布式计算体系中穿行于不通系统之间的端到端的一系列互为因果的事件流程的表述。(应用之间的调用路径)

作用:随着互联网架构扩张,分布式系统的广泛使用,应用间的调用变得极为复杂,链路追踪可以有效地快速定位问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值