cs224n笔记-1 NLP和自然语言处理

1. 什么是自然语言处理

  • NLP与计算语言学(computational linguistics)同义

  • 目标:让计算机理解世界

  • 语言层次:

    • 形态分析(Morphological analysis),单词的前后缀等
    • 句法分析(Syntactic analysis)理解句子结构,主语啊,宾语啊等等,包括词性以及位置等
    • 语义解释(semantic interpretation) 得出句子含义
    • 语篇处理(discourse processing) 自然语言的含义通过上下文来传达
  • 自然语言处理的应用

    • 拼写检查、联想词搜索
    • 下一步:希望自动从报纸等获取信息,并知道在讲什么,从而提取信息
  • 人类语言的特别之处

    • 其他诸如数据挖掘、信号处理等只是处理数据,对数据进行分析找出规律
    • NLP不同,并不只是单纯的数据,而是用来传达信息的
    • 是一个复杂的系统 表情符号、looooove等
    • 可以用连续不同的载体(声音、文字、手语)等传达相同的信息
    • 稀疏性(sparsity)

2. 什么是深度学习

  • 深度学习是机器学习的一个分支,总体来说就是怎样让电脑自动学习
  • 与机器学习的不同:
    之前的机器学习是有人类来思考一个特定的问题,找出解决的关键要素,然后设计出与该问题相关的重要特征要素,然后写代码实现。(人工设计表示和输入特征)这个过程叫做机器学习,但是机器学到什么了么?nothing,反倒是人类学到了很多。机器只是在做数值优化(numeric optimization)而已。
  • 深度学习是表征学习(representation learning)的一个分支

表征学习理念: 只向电脑提供来自世界的原始信号(视觉、语音信号等),然后电脑自动得出好的中介表达(good intermediate representations),来很好的完成任务。某种意义上说是自己定义特征
深度学习的真实含义是能够得到多层的习得表征(learned representations)

  • 探索深度学习
    因为手动设计特征太具体,而且不完整,并且需要很长时间来设计和验证,最终只能达到一定的水平。
    但是learned features适应性强,训练快,不断学习,提升表现水平。

最近六七年发展迅速火爆。但是现在使用的深度学习的关键技术是80、90年代发明的。 是因为当时没有海量数据。而且当时计算机算力达不到。

  • 深度学习的成功

深度学习真正意义上第一个重大突破是语音识别(speech recognition)
第二个巨大成功的例子是计算机视觉(CV,Computer Vision),更为有名。在ImageNet计算机视觉竞赛中的出色表现

3. 课程形式

微积分 calculus
向量 vectors
矩阵 matrices
多元微积分 multivariate calculus [,mʌltɪ'vɛəret] ['kælkjələs] 
线性代数 linear algebra ['ældʒɪbrə]
概率 probability
统计 statistics
人工智能 cs221
机器学习 cs229

cs224n.stanford.edu

4. why NLP 难

  • 人类语言模棱两可(语法不像if...else那样明确,指代不像变量那样明确,只能通过上下文)
  • 最大的问题是自然语言是高效的通信工具,高效意味着省略。人们可以说最少的话,然后听者自动补全,理解即可。

5. NLP的深度学习简介

Deep NLP = Deep Learning + NLP

  • level:词汇学、句法学、语义学
    深度学习一个了不起的发展是,用非常小的核心技术工具箱,在各个领域适用。而且效果比之前人工的方法好很多

深度学习和语言,都是以词义为起点。第二讲详细展开。一般用300维的向量,甚至1000维
。这些高维度的向量空间形成了语义空间,但是并没有任何含义。

句法,陈丹琦利用神经网络进行依存句法分析(dependency parsing)

谷歌翻译:
并非传统的翻译方法,用了一个大型的深层的循环神经网络,阅读原句子生成向量内部表征来代表句子,当达到句子结尾,则开始在译文中生成单词。翻译过程中依次生成单词。这被称为一种神经语言模型(neural language model)

都是通过用向量进行表示的,向量可能没有任何含义,但是向量的表达非常非常非常微妙 。虽然没有结构,但却是一个非常灵活的数据结构,拥有强大的表达能力,这就是深度学习的强项。

6. 思考总结

本节课作为入门课,讲解了NLP和DL的一些历史发展背景,将DL做NLP的方法与之前传统NLP的方法进行了对比。并分析了深度学习为什么近年来成功的原因(大数据+高算力)。讲解了NLP任务的困难之处。最后引入了DL做NLP的基本方法——词向量表达。

自然语言最大的困难之处在于省略,计算机在没有人类知识背景下,想要理解一句话真的是非常困难的。但是,一旦未来技术有所突破,那将是比语音识别、计算机视觉等伟大N倍的进步,想想人类知识的传承,绝大多数依赖于书籍或者口头经验等,这些都是可以进行输入表达的,自然语言处理一旦真正理解了句子的含义,便可以可以迅速学习完整个人类社会的知识,构建一个真正智能的人工智能系统。到时候,只要有摄像头监控的地方,将视频进行智能化的表达,生成语言文字,然后整个系统就可以进行知识的更新。这个世界完全就是数字化的世界了,平常的新闻都会自动生成了,想想有点略微可怕。
 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值