开源一套Trados Sdlxliff 对比工具

开源一套Trados Sdlxliff 对比工具

在Trados翻译过程中经常对需要进行版本控制和对比,例如对比不同设置下生成的sdlxliff文件,对比不同的机器翻译结果以及对比机器翻译和人工翻译,对比翻译和审校等等。

当然SDL官方也提供了对比工具
https://appstore.rws.com/Plugin/43?tab=releases
但官方的这种是基于TradosAPI的比较笨重,可定制化程度不高,因此还是单独又制作了一个sdlxliff对比工具:
https://github.com/Dark-20001/CompareSdlxliff/

这个和官方工具不同,官方使用Trados内置API来做因此2017,2019,2021,2022各个版本都不一样要下载对应的版本,所以此版本按照xliff文件标准来执行,独立运行,不依赖于Trados.

程序不是XML直接读取sdlxliff,因为sdlxliff会以base64编码形式讲小于25MB的文件编入sdlxliff这部分其实意义不大,所以我跳过这个部分。(sdlxliff这么多年也应该改进一下了,这种基于xml的文件结构经常出现问题,越来越多的软件企业使用zip格式二次封装文件,这样能够将不同独立的组件部分,嵌入部分进行分离,例如docx,xlsx)

string line1 = xlifflines.First();
List<string> base64lines = new List<string>();

int s = line1.IndexOf(bmark);

if (s != -1)
{
	string lineb = line1.Substring(s + 29);
	base64lines.Add(lineb);

	line1 = line1.Substring(0, s + 29);

	xlifflinesClean.Add(line1);

	int cc = 1;
	for (int i = 1; i < xlifflines.Count; i++)
	{
		if (xlifflines[i].StartsWith(bmarkStop))
		{
			xlifflinesClean.Add(xlifflines[i]);
			cc = i;
			break;
		}
		else
		{
			base64lines.Add((string)xlifflines[i]);
		}
	}
	for (int i = cc+1; i < xlifflines.Count; i++)
	{
		xlifflinesClean.Add(xlifflines[i]);
	}

}

之后在进行xml解析

doc = XDocument.Parse(String.Join("\r\n", xlifflinesClean));
doc = XDocument.Parse(string.Join("\r\n",xlifflines));

解析之后就是常规操作,提取TranslationUnits和ID

IEnumerable<XElement> transunits = doc.Descendants(XName.Get("trans-unit", xnxliff));
string tuid = transunit.Attribute("id").Value;

由于文件是带有XML命名空间的,这里要提前声明,这样对比Xml.Linq确实方便

string xnsdl = "http://sdl.com/FileTypes/SdlXliff/1.0";
string xnxliff = "urn:oasis:names:tc:xliff:document:1.2";

开两个文件得到两组数据,类型如下

Dictionary<Guid, string> keyValuePairs = new Dictionary<Guid, string>();

然后进行比较,这里没有引入自定义类型,使用Dictionary,效率更高
匹配成功的分别存入paired1,paired2并且ID相同,匹配不上的存入unpaired
这样即使两文件差异较大也能存留记录

Dictionary<Guid, string> keyValuePairs1 = ReadSdlxliff(file1, mtOnly, isTarget);
Dictionary<Guid, string> keyValuePairs2 = ReadSdlxliff(file2, mtOnly, isTarget);

Dictionary<Guid, string> paired1 = new Dictionary<Guid, string>();
Dictionary<Guid, string> paired2 = new Dictionary<Guid, string>();
Dictionary<Guid, string> unpaired = new Dictionary<Guid, string>();

//match
foreach (KeyValuePair<Guid, string> unit1 in keyValuePairs1)
{
	IEnumerable<KeyValuePair<Guid,string>> selectedUnits = from unit in keyValuePairs2 where unit.Key == unit1.Key select unit;
	if (selectedUnits.Count() > 0)
	{
		paired1.Add(unit1.Key, unit1.Value);
		paired2.Add(unit1.Key, selectedUnits.First().Value);
	}
	else
	{
		unpaired.Add(unit1.Key,unit1.Value);
	}
}

开始比较,使用了异地第三方开源的库,支持按字符和按单词的两种文本比较

public enum ComparisonType
{
    Words,
    Characters
}
foreach (KeyValuePair<Guid, string> unit1 in paired1)
{
	StringBuilder cb = new StringBuilder();
	List<string> list1 = new List<string>();
	List<string> list2 = new List<string>();

	list1.Add(unit1.Value);
	list2.Add(paired2[unit1.Key]);

	List<ComparisonTextUnit> comparisonTextUnits = comparer.GetComparisonTextUnits(list1, list2, comparisonType);
	foreach (ComparisonTextUnit u in comparisonTextUnits)
	{
			switch (u.ComparisonTextUnitType)
			{
				case ComparisonTextUnitType.Identical:
					cb.Append(u.Text);
					break;
				case ComparisonTextUnitType.Removed:
					cb.Append("<span class='removed'>");
					cb.Append(u.Text);
					cb.Append("</span>");
					changeRate.Removed += u.Text.Length;
					changeRate.RemovedCount++;
					break;
				case ComparisonTextUnitType.New:
					cb.Append("<span class='added'>");
					cb.Append(u.Text);
					cb.Append("</span>");
					changeRate.Added += u.Text.Length;
					changeRate.AddedCount++;
					break;
				default:
					break;
			}
		}
	}

剩下就是输出报告,并且在比较之前可以增加根据TranslationUnit属性,状态做一些筛选

最后项目地址:
https://github.com/Dark-20001/CompareSdlxliff

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Trados Studio是一款专业的翻译软件,用于帮助翻译人员进行翻译和项目管理。根据引用\[1\]和引用\[2\]的内容,Trados Studio的安装目录中包含了一些必要的组件和文件夹,如HunspellDictionaries和SolidFramework。其中,HunspellDictionaries存放的是拼写检查用的词典,SolidFramework则是用于PDF转Word的引擎。 根据引用\[1\]中的命令行代码,可以看出在Trados Studio 2019的安装目录下,通过使用MKLINK /D命令创建了两个虚拟文件夹,分别指向Trados 2021的对应目录。这样做的目的是为了实现多套Trados共用一套词典和转换器的效果。 此外,根据引用\[3\]的内容,Trados Studio的安装目录下还包含了一些其他目录,如Documentation和Samples。根据引用\[3\]的建议,这些目录可能用处不大,可以将其打包成RAR文件并存放到其他盘,以节省空间。 综上所述,Trados Studio是一款翻译软件,其安装目录中包含了一些必要的组件和文件夹,如HunspellDictionaries和SolidFramework。通过使用MKLINK /D命令,可以实现多套Trados共用一套词典和转换器的效果。同时,可以考虑将不常用的目录打包成RAR文件以节省空间。 #### 引用[.reference_title] - *1* *2* *3* [如何巧妙整理Trados Studio释放磁盘空间](https://blog.csdn.net/dark_2001/article/details/123193259)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值