CS224n笔记一：开端

最新推荐文章于 2024-09-17 16:52:57 发布

Claire_ljy

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量96

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/mengnan/p/9307590.html

版权

何为自然语言处理

自然语言处理的目标是让计算机处理或者“理解”自然语言，以完成有意义的任务，如QA等。

自然语言处理涉及的层次

输入有两个来源：语音和文本，所以第一级是语音识别，OCR或者分词
形态学（Morphological analysis）或称词法或者词汇形态学。其研究词的内部结构，包括屈折变化和构词法两个部分。
句法分析（Syntactic analysis）和语义分析（Semantic Interpretation）
对话分析（Discourse Processing），根据上文语境理解下文

其中，CS223n关注画圈部分的三个部分（语音，句法分析和语义分析）

自然语言处理应用

从易到难大致有：

拼写检查，关键词检索...
文本挖掘（产品价格，日期，时间，地点，人名...）
文本分类
机器翻译
客服系统
复杂对话系统

人类语言的特殊之处

人类语言是离散的，明确的符号系统，但允许出现各种变种。符号传输到大脑的过程是通过连续的声光学信号，大脑编码似乎是连续的模式。另外，巨大的词表也导致了数据稀疏，不利于机器学习。因此，是否应该使用连续的信号而非离散的符号处理语言?

什么是深度学习

机器学习的子集，实际上是将特征工程+学习算法合二为一。深度学习是表示学习的一部分，用来学习原始输入的多层特征表示：

传统的机器学习手工特征耗时耗力，不易扩展，而深度学习自有编解码器，自动特征学习快，方便扩展。传统的机器学习示意如下：

为何NLP困难

人类语言充满歧义，解读依赖现实世界常识以及上下文。

Deep NLP=Deep Learning + NLP

将自然语言处理的思想和表示学习结合，用深度学习的手法解决NLP目标，这推进了不少方面的发展，如词性标注,命名实体识别,句法/语义分析

NLP表示层次：形态级别

传统方法在形态级别的表示是词素，如将uninterested拆分成前缀，词根，后缀三个部分：

深度学习中把词素也作为向量：

多个词素向量构成相同维度语义更丰富的词向量。

NLP工具：句法分析

NLP语义层面的表示

传统方法是手写大量的规则函数，也就是λ演算(Lambda calculus):

在深度学习中，每个句子，短语和逻辑表达都是向量。神经网络负责将它们合并。

情感分析

传统方法是请人手工搜集“情感极性词典”，在词袋模型上做分类器。

深度学习使用了RNN来解决该问题，它可以识别“反话”的情感极性：

QA

传统方法是手工编写大量的规则逻辑，比如正则表达式之类：

深度学习依旧使用了类似的学习框架，将事实存储在向量中：

客服系统

Neural Language Models是基于RNN的：

机器翻译

传统方法在众多层面做了尝试，如词语，语法，语法。这类方法试图找到一种世界通用的“国际语”作为原文和译文的桥梁。

而Neural Machine Translation将原文映射为向量，由向量构建原文，所有层级的表示都是向量：

这也许是因为向量是最灵活的形式，它的维度是自由的，还可以组成矩阵或者更高维度的Tensor，事实上，在实践时，向量和矩阵没有本质区别。

码农场

转载于:https://www.cnblogs.com/mengnan/p/9307590.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。