NLP常见预处理任务概述介绍

最新推荐文章于 2024-07-24 12:19:14 发布

不吐桔子皮

最新推荐文章于 2024-07-24 12:19:14 发布

阅读量562

点赞数

分类专栏： NLP 文章标签： nlp 自然语言处理机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ai_xiao_cai_niao/article/details/106625116

版权

NLP 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

1.词性标注

词性标注的输入是一个序列，输出的是每个词的词性，那么标注完以后再进行下游任务效果就会比直接把一段文字丢进去更好。
下图为示例图：

在这里插入图片描述

2.分词

对于英文来说，单词间有空格，所以不需要分词，但是对于中文，在进行各种任务时需要对文本进行分词。
如图所示：
在这里插入图片描述

3.Coreference Resolution（指代消解）

把同一个人或者事物标注出来，如下图例子：
在这里插入图片描述

4.文本摘要（summarization）

1.直接抽取出一些句子当做摘要
在这里插入图片描述
2.机器用自己的话写摘要

5.机器翻译

输入文字或者语音输出翻译的结果，如图：
在这里插入图片描述

6.改错

在这里插入图片描述

7.情感分类

分为正面和负面的评价
在这里插入图片描述

8.立场侦测

一般来说，立场就是四类，support、denying、querying，commenting，那么，这四类立场的判断需要用到veracity prediction，也就是真实性预测。
在这里插入图片描述
真实性预测如下图，以输入发的文章，网友的回应，维基百科的的数据为例，输出的就是真实性。

9.自然语言推论（Narural Language Inference）

简称NLI，根据前提（promise）能不能推断出某个假设，输出有三类，矛盾（contradiction）、蕴含（entailment）、中立（neutral）
在这里插入图片描述

10.搜索引擎

在这里插入图片描述

11.问答系统

在这里插入图片描述

12.对话（dialogue）

对话有两种，一种chatting，另一种是任务导向的对话（Task-oriented）。

12.1chatting

chatting，其实就是尬聊，需要注意的是模型需要记得之前的话。
在这里插入图片描述

12.2Task-oriented

另一种是任务导向的对话（Task-oriented）
有点像摘要，但是只把和任务有关的信息抽取出来，
在这里插入图片描述
State Tracker不会直接吃对话，而是先把对话通过NLU（nature language understanding）表示，再丢给State Tracker

所以总结起来Task-oriented整个流程如下

13.Knowledge Graph

在这里插入图片描述

命名实体识别

输入一个sequence，机器给里面每一个token一个label，
在这里插入图片描述
两个实体之间的关系表示如下图：

总结

那么这么多任务，就有了新的思考，如何把不同的任务用一个模型解决呢？DecaNLP就用一个模型解决十个任务，把所有的任务都看成QA问题。
在这里插入图片描述

不吐桔子皮

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。