link Metrics Triton Inference服务器提供Prometheus度量标准,指示GPU和请求统计信息。 默认情况下,这些指标可从http://localhost:8002/metrics获得。 度量标准仅可通过访问端点来使用,而不会推送或发布到任何远程服务器。 推理服务器的--allow-metrics=false选项可用于禁用度量标准报告,而--metrics-port选项可用于选择其他端口。 下表描述了可用指标。