Datadog——Monitor as a service（笔记）

最新推荐文章于 2024-08-16 09:12:19 发布

SuperWQH7

最新推荐文章于 2024-08-16 09:12:19 发布

阅读量1k

点赞数

文章标签：运维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SuperWQH7/article/details/126860433

版权

1. DataDog公司做什么的？

为云端软件基础设施提供全栈的性能监测，监测的对象有：最顶端的应用程序，到中间的 Kubernetes/Docker/Hypervisor，到操作系统，以及中间的数据库，第三方服务等。

Datadog 试图做到的是将企业原本的十几个到最多几十个互相割裂的 IT 监测系统整合成一个，既提高监控效率，又降低企业的 IT 支出。

2. 应用程序监测出现背景：

1）企业内部的系统在使用时出现了问题，使用的用户就会发送请求帮助的 Ticket（即请求 IT 部门协助的系统内部消息，填写故障描述等）。每个团队（windows团队、网络团队、数据库团队）都有一个自己的工具包监测自己辖下的信息系统，这些性能监测工具都不相连，当故障出现的时候，这些团队要进行交流，拼出全貌。

2）软件更新迭代太快，新的功能改善如果都等候人工测试或用户故障汇报，效率过低，可以自行使用软件机器人等技术模拟测试任何新老应用的运行环境，配合实时监控系统，可以大大减少宕机时间和资源成本。

3）远程办公时，同时接入公司网络或云端系统，需要统一的网络面板进行网络监测。

3. 性能监测的数据支柱

1）Log日志：均包含时间信息和事件背景纪录，事件日志对发现系统的紧急或不可预见错误非常有用。

Log作用：因为复杂的分布式系统发生故障，可能同时多个高度相连的组件中的多个事件触发的，如果要找到故障的所有触发点，就必须需要首先找到一个Log日志所显示的症状入手，然后推断这个请求在分布式系统的整个声明周期，最后在此过程中通过迭代检查系统各部件的互动作用。

Log日志的生成很容易，但性能却参差不齐。如果 logging 没有足够的优化，可能也会影响应用程序的运行。

Datadog（收购回来的 Logmatic）就是基于 Elastic 的架构的事件管理系统。

2） Metric：测量一段时间内数据的量化表示，例如：系统性能指标，包括请求成功率、系统吞吐量、响应时长；资源性能指标，衡量系统软硬件资源使用情况，配合系统性能指标。Metric在默认情况下是结构化的，这使得查询和优化存储变得更加容易，也使得能保留更长的时间。

Metric 可以利用数学模型和预测来获取对系统在过去或未来一段时间内的行为的掌握。

3） Trace：记录在分布式计算体系中穿行于不通系统之间的端到端的一系列互为因果的事件流程的表述。（应用之间的调用路径）

作用：随着互联网架构扩张，分布式系统的广泛使用，应用间的调用变得极为复杂，链路追踪可以有效地快速定位问题。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。