CS224n笔记一:开端

何为自然语言处理

自然语言处理的目标是让计算机处理或者“理解”自然语言,以完成有意义的任务,如QA等。

自然语言处理涉及的层次

89866999.jpg

  • 输入有两个来源:语音和文本,所以第一级是语音识别,OCR或者分词

  • 形态学(Morphological analysis)或称词法或者词汇形态学。其研究词的内部结构,包括屈折变化和构词法两个部分。

  • 句法分析(Syntactic analysis)和语义分析(Semantic Interpretation)

  • 对话分析(Discourse Processing),根据上文语境理解下文

    其中,CS223n关注画圈部分的三个部分(语音,句法分析和语义分析)

自然语言处理应用

从易到难大致有:

  • 拼写检查,关键词检索...

  • 文本挖掘(产品价格,日期,时间,地点,人名...)

  • 文本分类

  • 机器翻译

  • 客服系统

  • 复杂对话系统

人类语言的特殊之处

人类语言是离散的,明确的符号系统,但允许出现各种变种。符号传输到大脑的过程是通过连续的声光学信号,大脑编码似乎是连续的模式。另外,巨大的词表也导致了数据稀疏,不利于机器学习。因此,是否应该使用连续的信号而非离散的符号处理语言?

什么是深度学习

机器学习的子集,实际上是将特征工程+学习算法合二为一。深度学习是表示学习的一部分,用来学习原始输入的多层特征表示:

006Fmjmcly1fgbjf9id9jj30fc0p8diw.jpg

传统的机器学习手工特征耗时耗力,不易扩展,而深度学习自有编解码器,自动特征学习快,方便扩展。传统的机器学习示意如下:

006Fmjmcly1fgbjc1j7kuj30xu0v2gp4.jpg

为何NLP困难

人类语言充满歧义,解读依赖现实世界常识以及上下文。

Deep NLP=Deep Learning + NLP

将自然语言处理的思想和表示学习结合,用深度学习的手法解决NLP目标,这推进了不少方面的发展,如词性标注,命名实体识别,句法/语义分析

NLP表示层次:形态级别

传统方法在形态级别的表示是词素,如将uninterested拆分成前缀,词根,后缀三个部分:

006Fmjmcly1fgbng3z7aaj30g404iaa8.jpg

深度学习中把词素也作为向量:

006Fmjmcly1fgbngnf2vlj30hg0h8q4m.jpg

多个词素向量构成相同维度语义更丰富的词向量。

NLP工具:句法分析

006Fmjmcly1fgbnmgm6htj31bg0q4qey.jpg

NLP语义层面的表示

传统方法是手写大量的规则函数,也就是λ演算(Lambda calculus):

006Fmjmcly1fgbnxnzn3vj30kq0ccjuc.jpg

在深度学习中,每个句子,短语和逻辑表达都是向量。神经网络负责将它们合并。

006Fmjmcly1fgbnzbgmz8j30n40c2wgh.jpg

情感分析

传统方法是请人手工搜集“情感极性词典”,在词袋模型上做分类器。

深度学习使用了RNN来解决该问题,它可以识别“反话”的情感极性:

006Fmjmcly1fgbo310iy8j319q0imjv3.jpg

QA

传统方法是手工编写大量的规则逻辑,比如正则表达式之类:

006Fmjmcly1fgbo69svvuj312g07m0tx.jpg

深度学习依旧使用了类似的学习框架,将事实存储在向量中:

006Fmjmcly1fgbo9whftoj30ay078dgm.jpg

客服系统

Neural Language Models是基于RNN的:

006Fmjmcly1fgbojgvx9fj30yq0e276o.jpg

机器翻译

传统方法在众多层面做了尝试,如词语,语法,语法。这类方法试图找到一种世界通用的“国际语”作为原文和译文的桥梁。

006Fmjmcly1fgcea4v6avj318c15y4o5.jpg

而Neural Machine Translation将原文映射为向量,由向量构建原文,所有层级的表示都是向量:

006Fmjmcly1fgboq2lgecj31ee0luaho.jpg

006Fmjmcly1fgbozv9yimj30m40hy0uw.jpg

这也许是因为向量是最灵活的形式,它的维度是自由的,还可以组成矩阵或者更高维度的Tensor,事实上,在实践时,向量和矩阵没有本质区别。

码农场

转载于:https://www.cnblogs.com/mengnan/p/9307590.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值