自然语言处理2——语言学基础

自然语言处理2——语言学基础

词性与词法

词性分类:

  • 开放类(词汇类):名词、动词、形容词
  • 封闭类(功能类):介词、限定词等

词法(构词过程):

  • 变形:对词根进行系统的修改,加前后缀来指明语法结构的不同,如:单复数、时态、数目
  • 派生:缺乏系统化,通常导致语法类别及含义的根本变化,如:wide widely
  • 复合:两个以上的词构成一个新词

短语结构

定义:特定的词语集合的行为,在不同位置表现出相同的语法行为。

语法(如何识别短语):

  • 重写规则:类别->类别;左边的符号序列可以重写为右边的符号序列。
  • 树:子节点的顺序为句子中词语的顺序,非终结节点和它的直接子节点/局部树对应重写规则的一个应用,分析树对应句子的派生
  • 带标记的括号:括号集合划出了各成分,并通过加标记表示了非终结符的类别.如: [ S [ N P [ A T T h e ] [ N N S c h i l d r e n ] ] [ V P [ V B D a t e ] [ N P [ A T t h e ] [ N N c a k e ] ] ] ] [ S[NP[AT The][NNS children]][VP[VBD ate][NP[AT the][NN cake]]]] [S[NP[ATThe][NNSchildren]][VP[VBDate][NP[ATthe][NNcake]]]]

分析:根据句子构建一颗短语结构树

句法分析:给出一个词语序列,重构它的派生或者短语结构树的过程

问题:

  • 远距离依存关系;
  • 句法分析和短语结构歧义:一个词语序列可以给出多个不同的短语结构树;
  • 附着歧义:不同的附着有不同的含义;
  • Garden Pathing:进入可疑分析后不得不回溯重新分析

歧义原因:

  • 语法歧义
  • 找不到对应的句法分析:语法中缺少规则;不合乎语法

语义和语用

语义:研究词语的含义,结构及说话方式:单个词的语义、单个词的含义怎样联合起来组成句子的含义

  • 词汇级语义分析:研究如何理解某个词的含义
    • 词义消歧:某个词有多个含义,如何根据上下文确定含义
      • 方法:基于词典;基于机器学习
    • 词表示:如何表示并学习一个词
      • 方法:one-hot模型;词嵌入(word Embedding:根据词常出现的语境构造向量)
  • 短语级语义分析:词在不同环境下词义会有差别,研究词语搭配的含义
    • 整体含义:各部分含义+不能从各部分推导出的额外的语义信息
  • 句子级语义分析:根据句子的句法结构和其中词的词义等,推导出能够反应这个句子意义的形式化表示
    • 语义角色标注:浅层语义分析方法,任务是找出核心语义角色(人等)和附属语义角色(时间、地点、方式等)
    • 句子嵌入表达:研究句子的向量表示
      • 方法:词袋模型(Bag of word);卷积神经网络;循环神经网络;BERT等

语用:研究知识和语言习惯是如何与字面含义相互影响的,即指人在一定环境中对语言的运用,在不同环境下如何理解语言

  • 篇章分析:阐明文本中句子之间的隐含关系

  • 指代消解:把指代的东西明确化

  • 对话中的语言行为建模

句法、语义、语用的关系:

句法结构相同,语义不同语义相同,句法结构不同语义相同,语用有别
例子”吃苹果“ ”吃食堂“”吃了苹果“ ”苹果吃了“主席台上摆着鲜花;鲜花摆在主席台上
相同句法:动宾结构语义:动作-对象语义
不同语义分别是:动作-对象关系;动作地点关系句法分别是:动宾关系;主谓关系1:主席台是旧信息,鲜花是新信息;2:主席台是新信息,鲜花是旧信息

往期文章:
自然语言处理1——NLP概述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值