作者:欧阳佳
英文的单词之间都是有空格分开的. 比如一句话:This is a test.
我们将很容易区分出每一个单词.
它们分别为:This, is , a, test.
然而,中文则不然.
中文的句与句之间是有标点符号隔开的.可词与词之间却没有任何符号隔离.
因此,我们意识到,一个好的中文翻译软件,不管是汉英还是汉日词典,必须有好的中文分词技术.
通过对ICTCLAS(中科院汉语分词系统)分词技术的研究.
我们受益非浅.
ICTCLAS采用的词典结构可以如下图所示:
考虑到数据结构的设计将左右我们最终的开发成果.
所以我们组决定认真设计一个数据结构.
考虑到汉英,汉日词典的特点.尤其是汉日词典.我们将重点考虑分词技术的方便与快速.
参考文章:ICTCLAS分词系统研究(二)--词典结构 sinboy的菜地