用awk从文件中提取时间信息

------------------------------------------------------------
author: hjjdebug
date  : 2023年 12月 26日 星期二 11:16:25 CST
description: 用awk从文件中提取时间信息
------------------------------------------------------------
关于awk我就不多说什么了, 你如果肯花时间阅读肯定知道它了.

m3u8文件是一种纯文本文件.
现在我有一个m3u8文件, 非常长,很大,我截取它一段内容如下:
$cat playlist.m3u8
#EXTINF:20.000000,
#EXT-X-PROGRAM-DATE-TIME:2023-12-18T12:00:31.581+0800
/storage/47/357/20231218/20231218-120029.ts
#EXT-X-DISCONTINUITY
#EXTINF:20.000000,
#EXT-X-PROGRAM-DATE-TIME:2023-12-18T12:05:09.683+0800
/storage/47/357/20231218/20231218-120509.ts
#EXTINF:20.000000,
#EXT-X-PROGRAM-DATE-TIME:2023-12-18T12:05:29.683+0800
/storage/47/357/20231218/20231218-120527.ts
#EXTINF:20.000000,
#EXT-X-PROGRAM-DATE-TIME:2023-12-18T12:05:49.683+0800
/storage/47/357/20231218/20231218-120547.ts

其中.ts文件名称是按时间"年月日-时分秒.ts"来命名的, 原则上每一个文件的名字
都应该比上一个文件多20秒. 如果是19或21也是正常的.
例如: 120547-120527=20
/storage/47/357/20231218/20231218-120527.ts
/storage/47/357/20231218/20231218-120547.ts

另外: EXT-X-PROGRAM-DATE_TIME 也记录有时间信息, 原则上下一条正常比上一条多20秒.


现在对于成千上万条文本记录,判断一下EXT 时间信息及文件名称是否是正常的,
把不正常的位置及数据打印出来.

下面是代码,夸赞一下awk的match命令及灵活的数值,字符串自动识别功能.
$cat time.awk
#!/bin/awk -f
{
    if(match($0,/([0-9]{2})([0-9]{2})([0-9]{2}).ts/,a)) #匹配到文件时间
    {   # 把匹配到的字符串还能分组放入数组,强!
        time=a[1]*3600+a[2]*60+a[3];  # awk 自动判别参数是字符串还是数据, 棒!
#        print a[1],a[2],a[3], 它们就是时,分,秒
        if(oldtime == 0)
        {
            oldstr = a[0]  # 保存匹配字符串
            oldtime = time # 保存时间
        }
        else
        {
            delta=time-oldtime # 计算时间差, 数据类型不用显式声明
            if(delta<19 || delta > 21)
            {
                printf("ts> line:%d delta:%d,old:%d,now:%d\n",NR,delta,oldstr,a[0]);
            }
            oldtime=time; # 保存时间和字符串
            oldstr=a[0];
        }
    }

    else if(match($0,/([0-9]{2}):([0-9]{2}):([0-9]{2})/,a)) # 匹配到参考时间
    {
        e_time=a[1]*3600+a[2]*60+a[3]
#        print "e_time=",e_time
        if(e_oldtime==0)
        {
            e_oldstr = a[0];  #保存时间和字符串
            e_oldtime = e_time;
        }
        else
        {
            delta=e_time-e_oldtime # 计算时间差
            if(delta!=20)
            {
#                print "e_time="e_time,"oldtime="oldtime
                printf("ref>line:%d delta:%d, old:%s,now:%s\n",NR,delta,e_oldstr,a[0])
            }
            e_oldstr=a[0] #保存时间和字符串
            e_oldtime=e_time
        }
    }
}

运行
$ ./time.awk playlist.m3u8
ref>line:6 delta:278, old:12:00:31,now:12:05:09
ts> line:7 delta:280,old:120029,now:120509
ts> line:10 delta:18,old:120509,now:120527

  • 14
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值