Docker上部署LPG（loki+promtail+grafana）踩坑复盘

原创已于 2024-03-12 08:49:23 修改 · 4.9k 阅读

36 ·

CC 4.0 BY-SA版权

文章标签：

#docker #grafana #容器 #日志采集 #LPG #运维

于 2024-03-08 22:57:55 首次发布

本文作者详细记录了在Docker上部署Loki、promtail和Grafana时遇到的问题，包括配置错误、日志解析异常、权限问题和多机连接问题，并提供了相应的解决方法和注意事项。

Docker上部署LPG（loki+promtail+grafana）踩坑复盘

声明
网上配置
部署踩坑
多机采集

在这里插入图片描述

声明

参考掘金文章：https://juejin.cn/post/7008424451704356872
版本高的用docker compose命令，版本低的用docker-compose

按照文章描述，主要准备loki、promtail、docker-compose文件，修改其中部分配置，得到如下文件：

网上配置

loki.yml不用修改:

auth_enabled: false

server:
  http_listen_port: 3100

ingester:
  lifecycler:
    address: 127.0.0.1
    ring:
      kvstore:
        store: inmemory
      replication_factor: 1
    final_sleep: 0s
  chunk_idle_period: 1h    # 此时没有接收到新日志的任何块都将被刷新
  max_chunk_age: 1h      # 所有的块将刷新时，他们达到这个年龄，默认是1h
  chunk_target_size: 1048576 # Loki将尝试构建最大为1.5MB的块，如果先达到chunk_idle_period或max_chunk_age，则首先刷新
  chunk_retain_period: 30s  # 如果使用索引缓存，必须大于索引读缓存TTL(默认索引读缓存TTL为5m)
  max_transfer_retries: 0   # 块传输禁用

schema_config:
  configs:
    - from: 2021-9-8
      store: boltdb-shipper
      object_store: filesystem
      schema: v11
      index:
        prefix: index_
        period: 24h

storage_config:
  boltdb_shipper:
    active_index_directory: /loki/boltdb-shipper-active
    cache_location: /loki/boltdb-shipper-cache
    cache_ttl: 24h     # 可以在更长的查询周期内提高更快的性能，使用更多的磁盘空间
    shared_store: filesystem
  filesystem:
    directory: /loki/chunks

compactor:
  working_directory: /loki/boltdb-shipper-compactor
  shared_store: filesystem

limits_config:
  reject_old_samples: true
  reject_old_samples_max_age: 168h

chunk_store_config:
  max_look_back_period: 0s

table_manager:
  retention_deletes_enabled: false
  retention_period: 0s

ruler:
  storage:
    type: local
    local:
      directory: /loki/rules
  rule_path: /loki/rules-temp
  alertmanager_url: http://localhost:9093
  ring:
    kvstore:
      store: inmemory
  enable_api: true

promtail.yml不用修改:

server:
  http_listen_port: 9080
  grpc_listen_port: 0

positions:
  filename: /tmp/positions.yaml

clients:
  - url: http://loki:3100/loki/api/v1/push

scrape_configs:
  - job_name: system
    static_configs:
      - targets:
          - localhost
        labels:
          job: varlogs
          __path__: /var/log/*log

docker-compose.yml修改service挂载部分:

version: "3"

services:
  # 日志存储和解析
  loki:
    image: grafana/loki
    container_name: lpg-loki
    volumes:
      - /opt/docker/loki/:/etc/loki/
    # 修改loki默认配置文件路径
    command: -config.file=/etc/loki/loki.yml
    ports:
      - 3100:3100
  
  # 日志收集器
  promtail:
    image: grafana/promtail
    container_name: lpg-promtail
    volumes:
      # 将需要收集的日志所在目录挂载到promtail容器中
      - /opt/logs/health-center/:/var/log/
      - /opt/docker/promtail:/etc/promtail/
    # 修改promtail默认配置文件路径
    command: -config.file=/etc/promtail/promtail.yml
  
  # 日志可视化
  grafana:
    image: grafana/grafana
    container_name: lpg-grafana
    ports:
      - 3000:3000

部署踩坑

cd到docker-compose.yml目录下，后台运行docker compose up -d，第一次拉取镜像较久

踩坑过程中我注意到直接后台运行然后用logs命令来看日志会更好一些

完事之后先来几个命令校验：

docker compose ps，发现只有promtail是运行的

在这里插入图片描述

docker compose logs loki，看一下loki日志，提到日期解析异常的问题：

在这里插入图片描述

经过一顿gpt，发现是loki配置中的日期没有按照yyyy-MM-dd的格式，于是修改loki配置：

schema_config:
  configs:
    - from: 2021-09-08
      store: boltdb-shipper
      object_store: filesystem
      schema: v11
      index:
        prefix: index_
        period: 24h

完事后先docker compose stop停下来，再重跑一次，然后查看进程，发现，还是loki起不来
查看日志，这次是这样：

在这里插入图片描述

一顿gpt后他说可能是什么目录权限问题，不过网上找到更简便的方式，只需要在loki中添加一句(wal)：

ingester:
  lifecycler:
    address: 127.0.0.1
    ring:
      kvstore:
        store: inmemory
      replication_factor: 1
    final_sleep: 0s
  chunk_idle_period: 1h    # 此时没有接收到新日志的任何块都将被刷新
  max_chunk_age: 1h      # 所有的块将刷新时，他们达到这个年龄，默认是1h
  chunk_target_size: 1048576 # Loki将尝试构建最大为1.5MB的块，如果先达到chunk_idle_period或max_chunk_age，则首先刷新
  chunk_retain_period: 30s  # 如果使用索引缓存，必须大于索引读缓存TTL(默认索引读缓存TTL为5m)
  max_transfer_retries: 0   # 块传输禁用
  wal:
    dir: /loki/.cache/loki/wal/

还是重来一次，暂停，启动，检查进程，这次可以了。
在这里插入图片描述

后续就是上grafana配置loki了。

配置的时候也遇到一个大坑了，就是保存测试的时候提示：Data source connected, but no labels received. Verify that Loki and Promtail is configured properly.

之后一顿搜索，看了github一篇又一篇，检查日志没有问题，检查挂载路径没有问题，3100端口也正常访问。最后在网上看到说加点日志就解决了，果然，在promtail放日志的目录下添加新的日志，再test，就检测到了。
后续继续研究多目录收集以及多机器日志收集，踩了坑再继续复盘。

多机采集

我在公司的开发环境部署的时候遇到数据源连接报的这个提示：
Unable to fetch labels from Loki (Failed to call resource), please check the server logs for more details

这个我之前用自己电脑的window docker + 自己服务器部署没有遇到，后面一顿搜索办法发现，只需要连接的url改成：http://loki:3100就可以了，不知道为啥。
原来在我自己服务器上部署lpg，在自己电脑上只需要部署promtail采集即可，然而在公司开发环境操作后发现服务器2连接不通服务器1端口，ping是可以通，但是telnet端口连接不上。具体步骤如下：
我使用docker-compose，配置和前面一致，只需要去掉其他不用的服务。然后在promtail.yml中，client连接到上面loki服务器地址，原来我在promtail配置的这个地方填了公网ip：
```
clients:
  - url: http://loki服务器公网ip:3100/loki/api/v1/push
```
然后发现连接不上，换了内网也连接不上，经过一顿gpt后，提示在loki配置中将127.0.0.1改为回环地址：
```
ingester:
 lifecycler:
   address: 0.0.0.0
```
这样Loki 将监听所有可用的网络接口。
之后重启服务器1的lpg和服务器2的promtail服务，就连接上了。
可能解决的方案之一：
```
#部署lpg的服务器查询3100端口监听：
[root@test1 lpg]# netstat -tulnp | grep 3100
tcp6       0      0 :::3100                 :::*                    LISTEN      584297/docker-proxy
```
GPT提到过：
1. 根据您提供的 netstat 输出，Loki 服务似乎没有在端口 3100 上监听。相反，docker-proxy 正在监听 TCP6 的端口 3100。这通常发生在 Docker for Mac 或 Docker for Windows 的环境中，其中 Docker 代理负责将容器的端口转发到宿主机的端口。
2. 提出的可能的解决方案之一：确保 Loki 监听正确的 IP 地址和端口：
  确认 Loki 服务确实在监听 TCP 端口 3100，而不仅仅是 TCP6。您可以通过运行 netstat -tulnp | grep 3100 来检查这一点。如果只有 TCP6 监听，您可能需要重启 Loki 服务以确保它在 TCP 上也监听。

5 条评论

csqZzz~ 2024.06.06
你好我想问下我现在也遇到了Data source connected, but no labels received. Verify that Loki and Promtail is configured properly.这个问题，您说的在promtail放日志的目录下添加新的日志的意思是在var/log下添加新日志吗？
- csqZzz~回复Sky_True 2024.06.12
  我还想再问下你们会出现调用的时候查不到log的情况吗就是刚开始能查到然后过了大概一个多小时就查不到了，是因为URL里面需要拼start,end跟step参数吗
- Sky_True回复csqZzz~ 2024.06.12
  就是在你采集的日志那里增加