Google Cloud 的运维套件(以前称为 Stackdriver)
在 Google Cloud 环境中监控应用性能,排查其中的问题并加以改善。
- 跨 Google Cloud 及应用收集指标、日志和跟踪记录
- 使用内置的开箱即用型信息中心和视图来监控平台及应用
- 查询和分析这些信号
- 设置适当的性能和可用性指标
- 使用现有系统设置提醒和通知规则
主要特性
实时日志管理与分析
Cloud Logging 是一项可大规模实现出色性能的全代管式服务,能够从 GKE 环境、虚拟机和 Google Cloud 服务中提取应用和系统日志数据以及自定义日志数据。借助 Cloud Logging,您可以分析选定的日志,加快应用的问题排查速度。
规模化的内置指标可观测性
Cloud Monitoring 可帮助您了解云应用的性能、正常运行时间以及总体运行状况。它可从 Google Cloud 服务、托管的正常运行时间探测工具、应用插桩 (instrumentatioin) 和各种常见的应用组件中收集指标、事件和元数据,在图表和信息中心上直观显示,以及管理提醒。
监控并改善应用性能
应用性能管理 (APM) 将 Cloud Logging 和 Cloud Monitoring 的监控和问题排查功能与 Cloud Trace、Cloud Debugger 和 Cloud Profiler 结合使用,帮助您降低延迟和费用,使您能够更高效地运行应用。
所有特性
日志管理
日志路由器让客户可以控制将日志发送到何处。所有日志(包括审核日志、平台日志和用户日志)都会发送到 Cloud Logging API,并流经日志路由器。日志路由器会依据现有规则检查每条日志条目,以确定哪些日志条目应该舍弃,哪些应该提取,以及哪些应该包括在导出内容中。
日志数据分析
Error Reporting 可分析并汇总云端应用中的错误,并在检测到新错误时向您发出通知。
主动监控
Cloud Monitoring 让您可以创建提醒政策,以便在各项指标、运行状况检查结果和正常运行时间检查结果达到指定阈值时收到通知。该产品集成了多种通知渠道,包括 Slack 和 PagerDuty。
自定义可视化内容
Cloud Monitoring 信息中心提供默认的开箱即用型信息中心,让您可以利用强大的可视化工具根据需求来自定义信息中心。
运行状况检查监控
Cloud Monitoring 为您的云环境中运行的 Web 应用和其他可通过互联网访问的服务提供端点检查功能。您可以配置与网址、群组或资源(例如实例和负载平衡器)关联的正常运行时间检查。
服务监控
Service Monitoring 提供开箱即用的遥测功能和信息中心,让您可通过拓扑图和情境图在具体情境中排查问题;另外,还通过 SLO 和错误预算管理功能实现了运行状况监控的自动化。
延迟管理
Cloud Trace 提供 App Engine 延迟采样和报告功能,并可显示每个网址的统计数据和延迟分布。
调试
Cloud Debugger 可让您在生产环境中的任意代码位置检查应用状态,从而将应用的生产环境数据关联至您的源代码。在此过程中您无需中止或者减缓请求处理。
性能和费用管理
Cloud Profiler 可持续对您的生产应用中的资源使用情况进行性能剖析,从而帮助您识别并消除潜在的性能问题。
安全管理
Cloud Audit Logs 提供覆盖整个 Google Cloud 的近乎实时的用户活动可见性。
官方文档
使用场景
监控您的基础架构
利用 Cloud Logging 和 Cloud Monitoring,您的 IT Ops/SRE/DevOps 团队可以获得监控基础架构和应用所需的现成的观测功能。Cloud Logging 会自动提取 Google Cloud 审核和平台日志,以便您立即上手使用。Cloud Monitoring 可免费显示所有 Google Cloud 指标,并与各种供应商产品集成,从而呈现非 Google Cloud 监控的指标内容。
排查应用问题
利用全套 Cloud 运维工具缩短平均恢复时间 (MTTR) 并优化应用的性能。使用信息中心同时通过服务和自定义应用指标来深入了解您的应用。使用 Monitoring SLO 和提醒帮助识别错误。深入分析日志以获取有关应用的更多详细信息,以及利用 Trace、Debugger 和 Profiler 进行更高层次的问题排查。