NLP常见预处理任务概述介绍

1.词性标注

词性标注的输入是一个序列,输出的是每个词的词性,那么标注完以后再进行下游任务效果就会比直接把一段文字丢进去更好。
下图为示例图:

在这里插入图片描述

2.分词

对于英文来说,单词间有空格,所以不需要分词,但是对于中文,在进行各种任务时需要对文本进行分词。
如图所示:
在这里插入图片描述

3.Coreference Resolution(指代消解)

把同一个人或者事物标注出来,如下图例子:
在这里插入图片描述

4.文本摘要(summarization)

1.直接抽取出一些句子当做摘要
在这里插入图片描述
2.机器用自己的话写摘要
在这里插入图片描述

5.机器翻译

输入文字或者语音输出翻译的结果,如图:
在这里插入图片描述

6.改错

在这里插入图片描述

7.情感分类

分为正面和负面的评价
在这里插入图片描述

8.立场侦测

一般来说,立场就是四类,support、denying、querying,commenting,那么,这四类立场的判断需要用到veracity prediction,也就是真实性预测。
在这里插入图片描述
真实性预测如下图,以输入发的文章,网友的回应,维基百科的的数据为例,输出的就是真实性。
在这里插入图片描述

9.自然语言推论(Narural Language Inference)

简称NLI,根据前提(promise)能不能推断出某个假设,输出有三类,矛盾(contradiction)、蕴含(entailment)、中立(neutral)
在这里插入图片描述

10.搜索引擎

在这里插入图片描述

11.问答系统

在这里插入图片描述
在这里插入图片描述

12.对话(dialogue)

对话有两种,一种chatting,另一种是任务导向的对话(Task-oriented)。

12.1chatting

chatting,其实就是尬聊,需要注意的是模型需要记得之前的话。
在这里插入图片描述
在这里插入图片描述

12.2Task-oriented

另一种是任务导向的对话(Task-oriented)
有点像摘要,但是只把和任务有关的信息抽取出来,
在这里插入图片描述
State Tracker不会直接吃对话,而是先把对话通过NLU(nature language understanding)表示,再丢给State Tracker
在这里插入图片描述
在这里插入图片描述
所以总结起来Task-oriented整个流程如下
在这里插入图片描述

13.Knowledge Graph

在这里插入图片描述

命名实体识别

输入一个sequence,机器给里面每一个token一个label,
在这里插入图片描述
两个实体之间的关系表示如下图:
在这里插入图片描述

总结

那么这么多任务,就有了新的思考,如何把不同的任务用一个模型解决呢?DecaNLP就用一个模型解决十个任务,把所有的任务都看成QA问题。
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值