整理一下学习自然语言处理的笔记,第一课是简介.
自然语言处理的几个常见运用
1. 信息提取
如下面的这段话:
Hi Dan, we’ve now scheduled the curriculummeeting.
It will be in Gates 159 tomorrow from10:00-11:30.
-Chris
我们通过自然语言处理能够得出如下信息:
2. 语义分析
比如淘宝某个商品的评价,我们能够提取信息,并且根据语义来进行测评.
比如对于一个照相机
提取出如下的主要特征:
zoom ,affordability, size and weight, flash ,ease of use
我们根据语义分析,搜集到关于大小和重量的如下三个评价:
a.拿起来很好很舒适
b.好轻的照相机,我再也不用拿着又大又笨的机器到处跑了.
c.这个照相机太娇嫩了,拿在手上必须非常小心.
再进一步的,通过NLP,我们可以得出前两个是好的评价,最后一个是不好的.
通过这些,我们对于这款相机有了基于NLP的测评指标,如下:
3. 自动翻译.
这个不用解释了,百度翻译等等就是实例.
发展历程
1. 萌芽期
1946年世界上第一台计算机出现,自然语言理解的研究始于机器翻译.
2. 发展期
自1966年美国自动语言处理咨询委员会(ALPAC)提出ALPAC报告开始到20世界80年代中期.研究重点转向其他分支:人机接口,对话系统,信息检索等.乔姆斯基语法理论及一批语法理论发表
基本方法:基于规则的分析方法
3. 繁荣期
自20世纪80年代末期以后,基于大规模语料库的统计方法引入自然语言处理
当前NLP发展研究的现状
很好解决了的问题:
1. 语言检测,判断某句话,某个词是什么语言.
如"spring"是英语,"春天"是中文.
2. 词性判定
动词,副词,形容词,主,谓,宾,等等.
3. 主题识别
时间,地点,任务等.
已经有了很好的效果:
1. 语义识别
如判断一句话是褒义还是贬义,是吐槽还是赞
2. 代词判断
如语言中的"他","它"指的是什么.
3. 二义性分析
像英语中的mouse有鼠标,老鼠两个意思.NLP要通过上下文判断具体是什么意思.
4. 解析语句
比如这句话:我能够通过这扇窗看到海.
NLP的任务是解析这句话的主谓宾,并得到其意思.
5. 自动翻译
6. 信息提取
就是一开始举的例子.提取出邮件的主要信息.
探索阶段问题:
1. 问答系统
2. 语义的总结归纳
如这样三句话:
沪深指数增长.
房价上涨
人民币增值
总结:经济很好.
3. 对话
类似于iphone的siri,人机对话.
基本方法:
1.理性主义方法
研究人的语言知识结构,人工编汇语言知识+推理系统
符号处理系统
2.经验主义方法
直接研究实际的语言数据,从大量的语言数据中获得语言的知识结构.
基于语言数据的计算方法
3.理性主义方法与经验主义方法的结合
融合方法
代表性应用系统
统计机器翻译系统:google翻译
智能问答系统:IBM watson,苹果siri
知识图谱:google知识图谱
为什么自然语言处理不容易?
1. 非标准话的语言
如火星语,省略句,语病等
2. 谚语,习语,地方性语言,新词.
3. 深层次的语言:
如:我和我的小伙伴们…
4. 专业语言:
如:KL距离,PCA
接下来几篇blog继续NLP的讨论.