正则表达式实践:去除字幕文件中重复的字幕时间行

Description:在ted2srt网站下载TED资源的字幕文件时,如果同时勾选English和中文,那么得到的字幕文件格式如下。

其中字幕时间的信息多了一行,分别对应英文字幕和中文字幕的时间轴,在播放时会有问题。

1
00:00:12,368 --> 00:00:13,784
00:00:12,368 --> 00:00:13,758  # 多余一行,应删除
Applying for jobs online
在线申请工作

2
00:00:13,808 --> 00:00:16,424
00:00:13,758 --> 00:00:16,398  # 多余一行,应删除
is one of the worst digital experiences of our time.
是我们这个时代最糟糕的 数字化体验之一。

3
00:00:16,448 --> 00:00:19,144
00:00:16,398 --> 00:00:19,129  # 多余一行,应删除
And applying for jobs in person really isn't much better.
面对面交谈也没好到哪儿去。

What?删除多余的第二行字幕时间信息,目标输出如下。

1
00:00:12,368 --> 00:00:13,784
Applying for jobs online
在线申请工作

2
00:00:13,808 --> 00:00:16,424
is one of the worst digital experiences of our time.
是我们这个时代最糟糕的 数字化体验之一。

3
00:00:16,448 --> 00:00:19,144
And applying for jobs in person really isn't much better.
面对面交谈也没好到哪儿去。

Solution:正则表达式

## 待替换的pattern
(,\d+)\n0\d+.*?\d$
## 替换后的pattern
\1

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值