python通过opencc库实现简体繁体字转换

opencc介绍

简繁切换的复杂性

不了解繁体字的一些人可能存在这样一个困扰:简体字与繁体字的互相转换有什么困难的呢?就像英文小写字母与大写字母一样,建立一个对应关系,然后直接替换,不就行了吗?

实际上,简繁切换的一大困难在于,存在“一简对多繁”的问题,也就是说,在简体字的使用过程中,一个简体字可能对应了多个繁体字,所以不能简单的用单字对应表来解决。比如说,一个简单的例子,“干”。

树干 樹幹

烧干 燒乾

干扰 干擾

可以看出,在做“树干”的时候,对应的字是“幹”,但是到了“烧干”,或者“烤干”的时候,对应的字又变成了“乾”,而对于“干扰”,或者“干预”,对应的字甚至没发生变化。从这里可以看出,这种变化是很复杂的,不能简单的通过单字进行替换,而需要更大规模的字词对应表,才能解决这个问题。

 opencc介绍

opencc就是一个非常好的中文字转换库,其中包含了非常丰富的对应字词表。

可以看出,从成语,谚语,生活用语,网络流行词,甚至是明星,与公司名都有包含,如“滚石唱片”,“林俊杰”等。可以说,内容非常丰富。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值