NLP基础任务 - 句法分析简介

e50c4cbd6a20f62229ced4babf0c3fc4.png

作者:nlp初学者小吴 (清华大学) 已获授权

链接:https://zhuanlan.zhihu.com/p/565282216

编辑:深度学习自然语言处理 公众号

句法(Syntactic)分析是NLP的经典任务

Syntactic tasks: Word level

Word level的句法分析任务有:形态分析分词序列标注

形态分析:Morphological analysis,指将一个词的词根(stem)和词缀(prefix & suffix)提取出来的任务

分词:Word segmentation or Tokenization,不同的语言分词方法不一样。对于中文、日文等语言,语句由字符的序列组成,因此词的形态化比较简单,分词一般指将文本中的字的序列分割成词的序列。此外,中文分词的歧义性较强。而对于英文,没有所谓的“分词”,对应的任务叫做Tokenization,指将文本序列切成由token组成的序列,如Wendy's -> Wendy + 's。Tokenization可以概括为按照特定需求,把文本切分成一个字符串序列(其元素一般称为token,或者叫词语)。

根据不同的需求,tokenization有不同的分割粒度:

  1. 字粒度I have a apple -> I / h / a / v / e / a / a / p / p / l / e

  2. 词粒度I have a apple -> I / have / a / apple

  3. subword粒度I have a new GPU. -> ['i', 'have', 'a', 'new', 'gp', '##u', '.']

词性标注:Part-of-speech(POS),将词在句子中扮演的角色进行标注,如动词、名词等。因为一词多义的存在,这个过程也存在歧义性。具体的tag可以参考:Universal POS tags,更细粒度的tag(Spacy)

f79263daffb03e894921973dc02e62a3.png
  1. Syntactic tasks: Sentence level 任务很多,其中Dependency parsingConstituent parsing 比较常见。

304389ed0265b98b64b0607819f1a703.png

成分句法分析:Constituent parsing,找到一句话中的层次短语结构

a7a3bc108632ebbfb1e6d43a27a271ca.png

依存句法分析:Dependency parsing,这种句法结构通过词之间的两两关系组成一句话的结构。这些关系包含:主语、宾语、修饰语等等,每个词修饰一句话中的另一个唯一的词(除了root节点,如下图中的bought)。

102cd5c7f2382e8b009781714d42d0ed.png

CCG parsing,组合范畴句法分析,形式为一种高度词汇化的句法

6253732bc28f6e80efd8599e1f969abd.png

CCG supertagging:在组合句法分析中,给每个词打标签

Syntactic chunking:把一个句子,切成比较大的短语块

50f103bb8cbb4c82f41ac9db585a6adc.png

reference

  • 【西湖大学 张岳老师|自然语言处理在线课程 第一章 - 3节】基础NLP任务介绍——语义分析任务_哔哩哔哩_bilibili

  • 李宏毅NLP(自然语言处理)完整课程,强推!_哔哩哔哩_bilibili(待参考)


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

为什么回归问题不能用Dropout?

Bert/Transformer 被忽视的细节

中文小样本NER模型方法总结和实战

一文详解Transformers的性能优化的8种方法

DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

苏州大学NLP团队文本生成&预训练方向招收研究生/博士生(含直博生)


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

7e8be096f23b40217af3729876c72d1c.png

记得备注~

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值