opencc介绍
简繁切换的复杂性
不了解繁体字的一些人可能存在这样一个困扰:简体字与繁体字的互相转换有什么困难的呢?就像英文小写字母与大写字母一样,建立一个对应关系,然后直接替换,不就行了吗?
实际上,简繁切换的一大困难在于,存在“一简对多繁”的问题,也就是说,在简体字的使用过程中,一个简体字可能对应了多个繁体字,所以不能简单的用单字对应表来解决。比如说,一个简单的例子,“干”。
树干 樹幹
烧干 燒乾
干扰 干擾
可以看出,在做“树干”的时候,对应的字是“幹”,但是到了“烧干”,或者“烤干”的时候,对应的字又变成了“乾”,而对于“干扰”,或者“干预”,对应的字甚至没发生变化。从这里可以看出,这种变化是很复杂的,不能简单的通过单字进行替换,而需要更大规模的字词对应表,才能解决这个问题。
opencc介绍
opencc就是一个非常好的中文字转换库,其中包含了非常丰富的对应字词表。
可以看出,从成语,谚语,生活用语,网络流行词,甚至是明星,与公司名都有包含,如“滚石唱片”,“林俊杰”等。可以说,内容非常丰富。