字幕翻译,如何合并和拆分过分断句

4 篇文章 0 订阅
3 篇文章 0 订阅

我时常会接到字幕翻译项目,大多是英到中。如果字数比较多,我通常会问客户能不能增加一两个小时的预算,原因很简单:过分断句(over-segmentation)对译员很不友好,特别是在使用CAT  (computer-aided translation)的情况下,而合并句段、译后重新断句(post-segmentation),以及在原始视频中导入翻译好的字幕,进行在线/屏上检查(online/on-screen checking),这一切都需要更多时间,而这一切的成果,客户是喜闻乐见的,那就是客户可以直接拿来用的字幕文件。通常,如果客户不是特别“抠门儿”的话,是同意我的溢价请求的。

现在的CAT工具,大多都支持手工合并句段,比如在memoQ中,在当前句段中按ctrl+j,就可以将下一句段合并到当前句段中;选中多个句段,然后按ctrl+j,也可以一下子将这些选中句段合并;比如:

 粗略读一下,就可以看出,9个句段,其实是3个句子。手工合并后的结果:

显然,这种合并操作需要阅读原文,还要手工移动光标,选择句段,并且进行按键 操作。句段不多的话,还能忍受,但如果多的话,真的让人望而生畏。其实,仔细想想这个问题的根结所在,其实就是CAT软件在导入文件时,默认在段落结尾处分段了。所以,只需将那些分段重新接上就行了。因此,需要做的预处理工作就是将原文合并成一个大段落,原来分段的地方用一个特殊的标记表示,比如制表符(如果是英文,前面需要加个空格)。在Word中的操作步骤如下:

1.在Word打开源文件(这里显示的是memoQ导出的RTF格式):

2. 将只保留原文列,其他列(连同表头)删除:

 3.选中整个列(也就是整个表格),然后选择Layout >  Convert to text::

4. 将所有分段替换为带一个空格的制表符:

5.将文件改名保存为DOCX格式,重新导入memoQ:

 可以看出,原先过分断句地方已经转化为线内标记 (inline tags),而该断句的地方也断句了。

全篇翻译完毕后,确保那些表示断句的线内标记也已插入到译文的适当位置,不多也不少(可以通过CAT工具的标记验证功能进行检查)。之后,原路返回,也就是将这个文件导出为目标文件(那个单列的DOCX文件),在Word中打开,将所有带空格的制表符替换为段落,然后全部选中,转换为单列表格,然后将这个表格所有单元格选中、复制、粘贴到原来那个RTF文件中,保存这个文件,然后导入memoQ进行更新,这样就得到了和原来字幕对应的译文了。

这个流程有个问题,就是默认字幕原文是带标点符号的,即CAT软件会考察这些标点符号进行断句。如果原文不带标点符号,那么这个流程并不适用。

 

 

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值