自然语言理解任务分类

自然语言理解:序列标注、词性标注、命名实体识别、句法分析、语义分析

序列标注简单的来说就是给定一个序列,对序列中的每一个元素做一个标记,或者说给每一个元素打一个标签,这是一个比较宽泛的概念。中文命名实体识别、中文分词和词性标注等这些基本的NLP任务都属于序列标注的范畴。

词性标注
定义
• 词性标注:为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。例如:迈向/v 充满/v 希望/n 的/uj 新/a 世纪/n。
• 词性:是词汇基本的语法属性。
• 目的:是很多NLP任务的预处理步骤,如句法分析、信息抽取,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。
• 方法:基于规则的方法、基于统计的方法、基于深度学习的方法。
• 在中文中,一个词的词性很多时候都不是固定的,一般表现为同音同形的词在不同场景下,其表示的语法截然不同,这就为词性标注带来了很大的困难。但是,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序。

命名实体识别
定义
• 命名体识别(Named Entities Recognition, NER):又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。例如:冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n。
• 分类:NER研究的命名实体一般分为3大类(实体类、时间类和数字类)和7小类(人名、地名、组织机构名、时间、日期、货币和百分比)。
• 作用:与自动分词、词性标注一样,命名实体识别也是自然语言中的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等技术必不可少的组成部分。
• 步骤:
o 实体边界识别
o 确定实体类别(人名、地名、机构名等)
难点
• 各类命名实体的数量众多。
• 命名实体的构成规律复杂。
• 嵌套情况复杂。
• 长度不确定。
• 命名实体识别的难点:(1)汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词;(2)汉语分词和命名实体识别互相影响;(3)除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型;(4)现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体;(5)不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征。
深度学习NER
在这里插入图片描述
句法分析
定义
• 句法分析的主要任务是识别出句子所包含的句法成分以及这些成分之间的依存关系,分为句法结构分析和依存关系分析。一般以句法树来表示句法分析的结果。
在这里插入图片描述
重要性
• 机器翻译是NLP的一个主要领域,而句法分析是机器翻译的核心数据结构。句法分析是NLP的核心技术,是对语言进行深层次理解的基石。
• 对于复杂语句,仅仅通过词性分析,不能得到正确的语句成分关系。
• 随着深度学习在NLP中的使用,特别是本身携带句法关系的LSTM模型的应用,句法分析已经变得不是那么必要了。但是,在句法结构十分复杂的长语句,以及标注样本较少的情况下,句法分析依然可以发挥出很大的作用。因此研究句法分析依然是很有必要的。
难点
• 歧义:自然语言区别于人工语言的一个重要特点就是存在歧义。人类自身可以依靠大量的先验知识消除各种歧义,而机器在知识表示和获取方面存在严重不足,很难像人类那样进行句法消歧。
• 搜索空间:句法分析是一个非常复杂的任务,候选树个数随句子增多将呈指数级增长,搜索空间巨大。因此,必须设计出合适的解码器,以确保能够在可以容忍的时间内搜索到模型定义最优解。

语义分析
定义
• 语义分析是编译过程的一个逻辑阶段。语义计算的任务:解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章)的意义。
在这里插入图片描述
重要性
• 仅仅知道句子的结构,是否就可以了?
例如:三段论:所有人都得死,苏格拉底是人,所以苏格拉底也要死。
推论:不可能一天读完鲁迅的作品,《药》是鲁迅的作品,所以一天不能读完《药》。
• 通过上述案例可知,结构上合乎语法的,但语义上不合实际。因此,仅仅分析出句子的结构,并不能妥善的解决机器理解与翻译等问题。所以,需要语义分析。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MXG_ZZU

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值