因为程序从kafka里某一个topic读取的数据量过大,所以想看看这topic一天共有多少数据量,到底是不是读取的api有问题。
登录到该topic某一个paritition所在的机器上,进入到kafka-logs目录下该topic-partition的子目录。子目录中存储的数据文件如下
-rw-r--r-- 1 root root 906048 12月 22 10:57 00000000000013128029.index
-rw-r--r-- 1 root root 1073741161 12月 22 10:57 00000000000013128029.log
-rw-r--r-- 1 root root 1360104 12月 25 21:00 00000000000013622079.index
-rw-r--r-- 1 root root 1073737654 12月 25 21:00 00000000000013622079.log
-rw-r--r-- 1 root root 10485760 12月 28 15:49 00000000000014923211.index
-rw-r--r-- 1 root root 993289158 12月 28 15:50 00000000000014923211.log
每一个index和log文件是一对,当log文件大到一定阀值后,就会生成一对新的index和log文件,文件名上的数字,就是这对log文件开始存储的offset。
以 00000000000013622079.log 为例,这个文件的创建时间就是其第一条数据的接收时间,修改时间就是最后一条数据接收时间
stat 00000000000014923211.log
File: `0