1 NLP之绪论

最新推荐文章于 2024-01-21 19:24:11 发布

流动的风与雪

最新推荐文章于 2024-01-21 19:24:11 发布

阅读量329

点赞数

分类专栏： NLP 文章标签： NLP 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40061206/article/details/110191136

版权

NLP 专栏收录该内容

6 篇文章 5 订阅

订阅专栏

文章目录

1 从人工智能开始
2 自然语言处理是什么
3 自然语言处理的难点
4 自然语言处理中的典型任务

原文：Natural language processing (NLP) is a field at the intersection of computer science, artificial intelligence, and linguistics.

译文：自然语言处理（NLP）是计算机科学、人工智能和语言学三个学科的交叉学科的研究领域。

在这里插入图片描述

自然语言处理的目的是创建能够处理和理解人类语言的系统。

1 从人工智能开始

让机器具有人类的智能：

机器感知（计算机视觉、语音
信息处理）
学习（模式识别、机器学习、强化学习）
语言（自然语言处理）
记忆（知识表示）
决策（规划、数据挖掘）

2 自然语言处理是什么

自然语言≈人类语言。区别于人工语言（比如程序语言）；用计算机对自然语言信息进行处理的方法和技术。

自然语言处理包括语音识别、自然语言理解、自然语言生成、人机交互以及所涉及的中间阶段。

在这里插入图片描述

语言分析：分析语言表达的结构和含义

词法分析：形态还原、词性标注、命名实体（人名、地名、机构名）识别、分词（汉语、日语等）等；
句法分析：组块分析、结构分析、依存分析；
语义分析：词义、句义（逻辑、格关系、…）、篇章（上下文）（指代、实体关系、…）；

语言生成：从某种内部表示生成语言表达

词、句子、篇章的生成

多语言处理（机器翻译、跨语言检索）：语言之间的对应、转换

不同的应用对上述任务有不同的要求。

3 自然语言处理的难点

1、人类语言是灵活的，动态的；

2、同一个意图的不同表达，甚至包含错误的语法等；

3、语言在不断的变化，如：新词等。

以中文分词为例：下面是一些例子：

1、交叉歧义

这个/门/把手/坏了; /把/手/坏了

2、组合歧义

两个/人/一起/过去、个人/问题
从马/上/下来、马上/就/来

3、句子级歧义

白天鹅在水里游泳
该研究所获得的成果

4、语义歧义

配钥匙师傅：你配吗？
食堂阿姨：你要饭吗？

4 自然语言处理中的典型任务

在这里插入图片描述

4.1 分类问题

将一文字序列归于预先给定的一个类别集合中的某一类或某几类。

文本分类
主题识别
情感分类
信息过滤
垃圾邮件过滤

在这里插入图片描述

4.2 序列标注、序列生成、序列到序列问题

将一文字序列转换成另一个序列

词性标注
中文分词
信息抽取
机器翻译
自动问答
文本摘要

在这里插入图片描述

4.3 词性标注

为句子中的词标上预定义类别集合（标注集）中的类（词性，如名词、动词、形容词），为后续的句法/语义分析提供必要的信息。

输入：单词序列（一般为句子）
输出：每个单词的词性

在这里插入图片描述

4.4 分词

词是语言中最小的能独立运用的单位，也是语言信息处理的基本单位。分词是指根据某个分词规范，把一个“字”串划分成“词”串。

输入：字序列（一般为句子）
输出：对应每个字类别

在这里插入图片描述

4.5 句法分析（Parsing）

确定句子的组成

词、短语以及它们之间的关系

句法分析任务的类型

组块分析：基本短语识别
组成成分分析（结构分析，完全句法分析）：词如何构成短语、短语如何构成句子

依存分析

词之间的依赖（或支配）关系

示例如下：

"John ate the cat"的组成分分析：

在这里插入图片描述
"John ate the apple"的依存分析

在这里插入图片描述

4.6 共指消解 Coreference Resolution

在这里插入图片描述
找出文本中的He，their等代词所代指的对象。

4.7 自动摘要

利用计算机自动地从原始文档中提取全面、准确地反映该文档中心内容的简洁、连贯的短文。

1、抽取性摘要

输入：单词序列（一般为多个句子）
输出：子序列的类别（子序列一般为一个句子）

在这里插入图片描述
2、总结性摘要

输入：单词序列（长）
输出：单词序列（短）

在这里插入图片描述

4.8 机器翻译

机器翻译（Machine Translation，简称MT）是指利用计算机实现自然语言之间的自动翻译。

输入：单词序列（或语音）
输出：单词序列（或语音）

在这里插入图片描述

4.9 语法纠正

输入：单词序列
输出：单词序列

在这里插入图片描述

4.10 情感分析

分析文章（评论）对某个对象（社会热点事件、产品或者服务）的态度（积极/正面还是消极/负面）。

社会舆情分析：热点事件发现、预警
企业市场决策：产品意见调查、产品推荐
消费者购买决策

输入：字序列
输出：类别

在这里插入图片描述

4.11 谣言检测

输入：字序列
输出：类别

在这里插入图片描述

4.12 自然语言推理

输入：两个序列（如,两个句子）
输出：类别。矛盾 contradiction，蕴含 entailment，中性/中立 neutral。

在这里插入图片描述

流动的风与雪

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。