中英文在自然语言处理上的十大差异点
——学习总结
原文链接 → https://mp.weixin.qq.com/s/C7AF7ECj0bF5G1kDo3V72w
自然语言是人与人交流沟通的重要媒介和方式,经历过漫长的历史发展,在世界各地形成了众多的语言分支。语言就像一个加过密的通讯系统一样,只有发送和接受两端有一致的加密规则,双方才能进行有效通讯。语言不通主要是因为不同类型的语言有不同表达语义的符号、规则和发音等,这些差异也造成了不同的自然语言处理任务的差异性。众所周知中文和英文是世界上使用人数最多的两种语言,也是两种最有代表性的语言,并且两者差异性较为明显。从书写的文字上看,英文是表音的(能拼读发音),中文是表义的(象形文字嘛)。接下来总结中文和英文的十大差异点。
一、中英文分词方式不同
由于英文单词之间天然存在空格,所以对英文文本处理时可以非常容易地通过空格来切分单词。
然而中文词之间不存在天然地空格,并且中文词是由多个字构成的,所以对于中文文本处理之前首先要进行分词。中文分词是一个非常有挑战性的任务,虽然现在已有较为成熟的开源工具。
然而在一些特定任务下,英文可能要对单词继续切分(子词),中文可能不需要切分,做这些处理然后作为模型的输入。
二、英文语素和中文偏旁
英文需要词形还原(lemmatization)和词干提取(stemming)等预处理操作的原因是,英文单词有丰富的形态变化,包括:单复数、主被动、时态变化、词缀等。为方便处理需要对英文单词做一些预处理操作。当然这些操作一般还配合着词性标注等操作。
中文里是没有像英文这样的词形态变化的,但中文有一个与“词干”变化相近的概念——偏旁部首。学术界也有尝试,但是收益不怎么明显。作者认为其原因首先是常用中文汉字数量比英文单词少,每个字的意思多,这些汉字的含义通过上下文来获取的语义描述信息足够充分,拆分偏旁后额外再能添补的信息作用非常小。第二是中文里表义的基本单元是多个汉字构成的词,而不是单字。因而拆分偏旁部首对语义的理解起到的作用比较微小。
三、词性标注方法的差异
中英文词性尽管整体上很相似,但在很多细节上存在差异。词性标注是自然语言处理领域的一个重要研究方向。中英文的差异如下图。