記錄一次卡了很久的bug
原因是發現ds調度掛了,後面就開始排查原因,發現是zk掛了,怎麼都想不通居然是zk的原因,後面就一直排查,發現zk集群不論怎麼樣都沒有辦法啟動起來,就開始測試zk的standalone模式,發現還是沒有辦法啟動,這個時候我已經把所有的服務都關了,實在是沒有辦法找出原因,服務器是買的阿里雲的服務器,看了內存,硬盤,cpu等資源,資源這一塊是沒有問題的,所以這個事情就變得很詭異了。
經過一段時間的排查,發現是服務器被黑了,怎麼都沒有想到是這個原因,想死了~~~~~~~~~
解決辦法是:
我的服務器上有一個定時任務,把定時任務給刪除
crontab -l
crontab -e
把/opt 目錄下的private文件刪除
然後重啟zk就可以,zk重啟之後,我又開始跑ds,發現ds有的問題,是因為我的ds的用戶是屬於solution,發現這個bug之後,改/tmp下的ds用戶權限,之後再重啟ds,ds可以很順利的跑起來
剛剛在跑kafka的時候,一直在出bug
^Z2023-04-06 15:29:41,074 (PollableSourceRunner-KafkaSource-r1) [DEBUG - org.apache.kafka.clients.consumer.internals.AbstractCoordinator$FindCoordinatorResponseHandler.onSuccess(AbstractCoordinator.java:662)] [Consumer clientId=consumer-1, groupId=flume] Received FindCoordinator response ClientResponse(receivedTimeMs=1680766181074, latencyMs=6, disconnected=false, requestHeader=RequestHeader(apiKey=FIND_COORDINATOR, apiVersion=2, clientId=consumer-1, correlationId=2597), responseBody=FindCoordinatorResponse(throttleTimeMs=0, errorMessage='NONE', error=NONE, node=hadoop106:9092 (id: 106 rack: null)))
2023-04-06 15:29:41,074 (PollableSourceRunner-KafkaSource-r1) [INFO - org.apache.kafka.clients.consumer.internals.AbstractCoordinator$FindCoordinatorResponseHandler.onSuccess(AbstractCoordinator.java:677)] [Consumer clientId=consumer-1, groupId=flume] Discovered group coordinator hadoop106:9092 (id: 2147483541 rack: null)
2023-04-06 15:29:41,074 (PollableSourceRunner-KafkaSource-r1) [DEBUG - org.apache.kafka.clients.NetworkClient.initiateConnect(NetworkClient.java:862)] [Consumer clientId=consumer-1, groupId=flume] Initiating connection to node hadoop106:9092 (id: 2147483541 rack: null)
我一開始也不知道該如何排查,只是知道是kafka消費者的問題,我就在集群上新建了一個生產者,還開相對應的消費者去消費它,但是發現數據沒有消費到。到這裡,已經可以發現是kafka的消費丟失了一些數據信息,所有沒有辦法正常運行
解決辦法:
刪除Kafka的datas和logs的數據,重啟kakfa即可
又是天天踩坑的一天