自然语言处理中的中文词性、标记规范及其应用

分词和词性标注是自然语言处理领域的重要组成部分,尤其对于中文而言,作为整条自然语言处理pipeline的源头,分词和词性标注更是起到了关键的作用。我整理这篇文章,主要来源于这几个问题:
一、理解中文词性是否有意义?
问题:前几天跟几个刚认识的朋友谈自然语言处理的相关问题时,遇到一问题让我觉得很有意思,这位朋友说,中文没有词性可言,因为中文的词性兼类太过于严重,动副兼类,名动兼类等等,理解中文词性没有任何意义。当然,这位朋友知识从一个汉语本身的特点来说出的这个结论,但说理解中文词性没有任何意义,这个不太赞同。中文的词性与中文的语言构成和语言使用具有严格上的对应关系,而且词性作为概念的抽象,对于语言的泛化具有重要意义。

二、搞自然语言处理的是否要懂词性标记体系?
作为课题组的自然语言处理面试官,我出了一道开放性的问题,很简单,面试题为:介绍一下开源中文自然语言处理工具包的常见词性、依存关系标记及其对应的含义。但至今为止,没有人答上来过,这让我感到有点失望。做自然语言处理,在深度学习大行其道之时,都不注意语言本身的基础知识,这很有可能会导致“不懂你研究的对象还偏要去研究它”的悖论。理解中文的词性和语义依存关系是自然语言处理的一项基本功,大家一定要引起注意。

因此,本文将总结中文词性和依存关系,结合其具体含义以及相关的开源标记展开论述。

一、中文的词性
词是语义完整的最小语言单位,中文的词语包括有实词和虚词两个大类,实词指能够独立充当语法成分并且有实际意义的词,包括名词、动词、形容词、数词、量词、代词共6个小类。虚词指的是不能独立充当语法成分的词,主要有副词、介词、连词、助词、语

  • 6
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值