《中英文在自然语言处理上的十大差异点》学习总结

本文总结了中英文在自然语言处理上的十大差异,包括分词方式、语素和偏旁、词性标注、标点字体特征、词汇粒度处理、句法结构分析、指代消解、词汇关系挖掘、省略内容补足和歧义处理。英文的表音特性、词形变化和规范性使得处理上有别于中文的表义和词性标注难度。
摘要由CSDN通过智能技术生成

中英文在自然语言处理上的十大差异点

——学习总结

原文链接 → https://mp.weixin.qq.com/s/C7AF7ECj0bF5G1kDo3V72w

自然语言是人与人交流沟通的重要媒介方式,经历过漫长的历史发展,在世界各地形成了众多的语言分支。语言就像一个加过密的通讯系统一样,只有发送和接受两端有一致的加密规则,双方才能进行有效通讯。语言不通主要是因为不同类型的语言有不同表达语义的符号、规则和发音等,这些差异也造成了不同的自然语言处理任务的差异性。众所周知中文和英文是世界上使用人数最多的两种语言,也是两种最有代表性的语言,并且两者差异性较为明显。从书写的文字上看,英文是表音的(能拼读发音),中文是表义的(象形文字嘛)。接下来总结中文和英文的十大差异点


一、中英文分词方式不同

由于英文单词之间天然存在空格,所以对英文文本处理时可以非常容易地通过空格来切分单词。

然而中文词之间不存在天然地空格,并且中文词是由多个字构成的,所以对于中文文本处理之前首先要进行分词。中文分词是一个非常有挑战性的任务,虽然现在已有较为成熟的开源工具。

然而在一些特定任务下,英文可能要对单词继续切分(子词),中文可能不需要切分,做这些处理然后作为模型的输入。

二、英文语素和中文偏旁

英文需要词形还原(lemmatization)和词干提取(stemming)等预处理操作的原因是,英文单词有丰富的形态变化,包括:单复数、主被动、时态变化、词缀等。为方便处理需要对英文单词做一些预处理操作。当然这些操作一般还配合着词性标注等操作。

中文里是没有像英文这样的词形态变化的,但中文有一个与“词干”变化相近的概念——偏旁部首。学术界也有尝试,但是收益不怎么明显。作者认为其原因首先是常用中文汉字数量比英文单词少,每个字的意思多,这些汉字的含义通过上下文来获取的语义描述信息足够充分,拆分偏旁后额外再能添补的信息作用非常小。第二是中文里表义的基本单元是多个汉字构成的词,而不是单字。因而拆分偏旁部首对语义的理解起到的作用比较微小。

三、词性标注方法的差异

中英文词性尽管整体上很相似,但在很多细节上存在差异。词性标注是自然语言处理领域的一个重要研究方向。中英文的差异如下图。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值