文章目录
原文:Natural language processing (NLP) is a field at the intersection of computer science, artificial intelligence, and linguistics.
译文:自然语言处理(NLP)是计算机科学、人工智能和语言学三个学科的交叉学科的研究领域。
自然语言处理的目的是创建能够处理和理解人类语言的系统。
1 从人工智能开始
让机器具有人类的智能:
- 机器感知(计算机视觉、语音
信息处理) - 学习(模式识别、机器学习、强化学习)
- 语言(自然语言处理)
- 记忆(知识表示)
- 决策(规划、数据挖掘)
2 自然语言处理是什么
自然语言≈人类语言。区别于人工语言(比如程序语言);用计算机对自然语言信息进行处理的方法和技术。
自然语言处理包括语音识别、自然语言理解、自然语言生成、人机交互以及所涉及的中间阶段。
语言分析:分析语言表达的结构和含义
- 词法分析:形态还原、词性标注、命名实体(人名、地名、机构名)识别、分词(汉语、日语等)等;
- 句法分析:组块分析、结构分析、依存分析;
- 语义分析:词义、句义(逻辑、格关系、…)、篇章(上下文)(指代、实体关系、…);
语言生成:从某种内部表示生成语言表达
- 词、句子、篇章的生成
多语言处理(机器翻译、跨语言检索):语言之间的对应、转换
不同的应用对上述任务有不同的要求。
3 自然语言处理的难点
1、人类语言是灵活的,动态的;
2、同一个意图的不同表达,甚至包含错误的语法等;
3、语言在不断的变化,如:新词等。
以中文分词为例:下面是一些例子:
1、交叉歧义
- 这个/门/把手/坏了; /把/手/坏了
2、组合歧义
- 两个/人/一起/过去、个人/问题
- 从马/上/下来、马上/就/来
3、句子级歧义
- 白天鹅在水里游泳
- 该研究所获得的成果
4、语义歧义
- 配钥匙师傅:你配吗?
- 食堂阿姨:你要饭吗?
4 自然语言处理中的典型任务
4.1 分类问题
将一文字序列归于预先给定的一个类别集合中的某一类或某几类。
- 文本分类
- 主题识别
- 情感分类
- 信息过滤
垃圾邮件过滤
4.2 序列标注、序列生成、序列到序列问题
将一文字序列转换成另一个序列
- 词性标注
- 中文分词
- 信息抽取
- 机器翻译
- 自动问答
- 文本摘要
4.3 词性标注
为句子中的词标上预定义类别集合(标注集)中的类(词性,如名词、动词、形容词),为后续的句法/语义分析提供必要的信息。
输入:单词序列(一般为句子)
输出:每个单词的词性
4.4 分词
词是语言中最小的能独立运用的单位,也是语言信息处理的基本单位。分词是指根据某个分词规范,把一个“字”串划分成“词”串。
输入:字序列(一般为句子)
输出:对应每个字类别
4.5 句法分析(Parsing)
确定句子的组成
- 词、短语以及它们之间的关系
句法分析任务的类型
- 组块分析:基本短语识别
- 组成成分分析(结构分析,完全句法分析):词如何构成短语、短语如何构成句子
依存分析
- 词之间的依赖(或支配)关系
示例如下:
"John ate the cat"的组成分分析:
"John ate the apple"的依存分析
4.6 共指消解 Coreference Resolution
找出文本中的He,their等代词所代指的对象。
4.7 自动摘要
利用计算机自动地从原始文档中提取全面、准确地反映该文档中心内容的简洁、连贯的短文。
1、抽取性摘要
输入:单词序列(一般为多个句子)
输出:子序列的类别(子序列一般为一个句子)
2、总结性摘要
输入:单词序列(长)
输出:单词序列(短)
4.8 机器翻译
机器翻译(Machine Translation,简称MT)是指利用计算机实现自然语言之间的自动翻译。
输入:单词序列(或语音)
输出:单词序列(或语音)
4.9 语法纠正
输入:单词序列
输出:单词序列
4.10 情感分析
分析文章(评论)对某个对象(社会热点事件、产品或者服务)的态度(积极/正面还是消极/负面)。
- 社会舆情分析:热点事件发现、预警
- 企业市场决策:产品意见调查、产品推荐
- 消费者购买决策
输入:字序列
输出:类别
4.11 谣言检测
输入:字序列
输出:类别
4.12 自然语言推理
输入:两个序列(如,两个句子)
输出:类别。矛盾 contradiction,蕴含 entailment,中性/中立 neutral。