概述
本文介绍如何利用腾讯云容器服务 TKE 的日志功能对日志进行采集、存储与查询,分析各种功能用法与场景,给出一些最佳实践建议。
注: 本文仅适用于 TKE 集群。
如何快速上手 ?
TKE 的日志功能入口在 集群运维-日志规则
,更多关于如何为 TKE 集群启用日志采集与基础用法,参考官方文档 日志采集。
技术架构是怎样的 ?
TKE 集群开启日志采集后,tke-log-agent 作为 DaemonSet 部署在每个节点上,负责根据采集规则采集节点上容器的日志,然后上报到 CLS 日志服务,由 CLS 进行统一存储、检索与分析:
采集哪里的日志 ?
在 TKE 使用日志采集时,需要在 集群运维-日志规则
里新建日志采集规则,首先需要确定采集的目标数据源是什么,下面介绍支持的 3 种类型数据源及其各自使用场景与建议。
采集标准输出
最简单也是最推荐的方式是将 Pod 内容器的日志输出到标准输出,日志内容就会由容器运行时 (docker, containerd) 来管理,有以下几点好处:
- 不需要额外挂载 volume。
- 可以直接通过
kubectl logs
查看日志内容。
- 业务不需要关心日志轮转,容器运行时会对日志进行存储和自动轮转,避免因个别 Pod 日志量大将磁盘写满。
- 不需要关心日志文件路径,可以使用比较统一的采集规则,用更少的采集规则数量覆盖更多的工作负载,减少运维复杂度。
采集配置示例:
采集容器内的文件
很多时候业务通过写日志文件的方式来记录日志,使用容器跑业务时,日志文件被写到容器内:
- 如果日志文件所在路径没有挂载 volume,日志文件会被写入容器可写层,落盘到容器数据盘里,通常路径是
/var/lib/docker
(建议给此路径挂盘,避免与系统盘混用),容器停止后日志会被清理。
- 如果日志文件所在路径挂载了 volume,日志文件会落盘到对应 volume 类型的后端存储;通常用 emptydir,容器停止后日志会被清理,运行期间日志文件会落盘到宿主机的
/var/lib/kubelet
路径下,此路径通常没有单独挂盘,也就是会使用系统盘;由于使用了日志采集,有统一存储的能力,不推荐再挂载其它持久化存储来存日志文件(如云硬盘CBS, 对象存储COS, 共享存储CFS)。
许多开源日志采集器需要给 Pod 日志文件路径挂载 volume 才能采集,使用 TKE 的日志采集则不需要,所以如果将日志输出到容器内的文件里,不需要关心是否挂载 volume。
采集配置示例:
采集宿主机上的文件
如果业务将日志写入日志文件,但又想容器停止之后还能保留原始日志文件,好有个备份,避免采集异常时导致日志完全丢失,这时可以给日志文件路径挂载 hostPath,日志文件会落盘到宿主机指定目录,并且容器停止后不会清理日志文件。
<