统计自然语言处理1 ------绪论(一)

1.1基本概念

  当我们从事任何一项研究的时候,总是要关注两方面的问题:一是是什么,为什么?二是做什么,怎么做?这恰恰是科学与技术紧密相关的两个方面。自然语言处理既是一项技术,又是一门学科。
  信息的主要载体—-语言。语言的两种形式为文字和声音。文字和声音作为语言的两个不同形式的载体,所承载的信息占整个信息组成的70%以上(文字:70%,图像:20%,其他:10%)。

语言学

  语言学是指对语言的科学研究,作为一门纯理论的学科,语言学在近期获得了快速的发展,尤其从上个世纪60年代起,已经成为一门知晓度很高的广泛教授的学科。

  包括:历时语言学(diachronic linguishtics)(或称历史语言学(history linguistic))和共时语言学(synchronic linguistics)、描述语言学(descriptive linguistics)、对比语言学(contrastive linguistics)、结构语言学(structural linguistics)等等。

语音学(phonetics)

  
  语音学是研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学。

  包括:(1)发音语音学(articulatory phonetics),研究发音器官如何产生语音;
        (2)声学语音学(acoustic phonetics),研究耳口之间传递语言的物理属性;
        (3)听觉语音学(auditory phonetics),研究人通过耳、听觉神经和大脑对语音的知觉反应。

  根据不同的研究方法,语音学又分为:
         (a)一般语音学(general phonetics):对语音发音、声学或知觉的一般研究。与语言学的分析目的没什么关系。
         (b)实验语音学(experimental phonetics):对具体语言语音特点的研究。是语言学研究的一部分,有人甚至认为是语言学不可或缺的基础。

复数的语言科学(linguistic sciences)

复数的含义是指既包含语言学又包含语音学。

  语言学和其他学科的交叉产生了许多语言学的新分支,包括纯理论的和应用性的,如人类语言学(authropological linguistics)、计算语言学(computational linguistics)、生物语言学(biolinguistics)、心理语言学(psycholinguistics)、教育语言学(educational linguistics)和社会语言学(sociolinguistics)等等。

计算语言学

  计算语言学是利用电子数字计算机进行的语言分析。虽然许多其他类型的语言分析也可以运用计算机,计算分析最常用于处理基本的语言数据—例如建立语音、词、词元素的搭配以及统计他们的频率。
  是语言学的一个研究分支,用计算技术和概念来阐述语言学和语音学问题。已开发的领域包括自然语言处理(natural language processing, NLP),言语合成,言语识别,自动翻译,编制语词索引,语法的检测,以及许多需要统计分析和领域(如文本考释)。

自然语言处理

  自然语言处理或称自然语言理解(natural language understanding,NLU),人工智能研究的重要内容之一。自然语言处理NLP就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。
  近几年来,自然语言处理研究得到了前所未有的重视和长足的进展,并逐渐发展成为一门相对独立的学科而倍受关注,而且自然语言处理技术不断与语音识别(speech recognition)、语音合成(speech synthesis)等语音技术相互渗透和结合形成新的研究分支,因此,很多人在谈到“计算语言学”、“自然语言处理”或“自然语言理解”这些术语时,往往默认为同一个概念。甚至有些专著中干脆直接这样解释:计算语言学也称自然语言处理或自然语言理解[刘颖,2002]。

d人脑对语言的理解是一个复杂的思维过程。语言学、语言心理学、逻辑学、计算机科学、人工智能、数学与统计学。

这里写图片描述

1.2 关于“理解”的标准

Turing 测试(图灵测试)

  测试人在一段规定的时间内,在无法看到反应来源的情况下,根据两个实体(被测试的计算机系统和另外一个人)对他提出的各种问题的反应来判断做出反应的是人还是计算机。通过一系列这样的测试,从计算机被误判为人的几率就可以测出计算机系统所具有的智能程度。

<center>这里写图片描述

1.3自然语言理解研究的内容

 按照应用目标划分:

机器翻译(Machine translation,MT):实现一种语言到另一种语言的自动翻译。

应用:文献翻译、网页翻译和辅助浏览等。
实用系统:Systran (http://www.systransoft.com),36种语言对,20个专门领域。

机器翻译现状和对机器翻译的认识
  机器翻译研究在过去的五十多年曲折发展经历中,无论是它给人们带来的希望还是失望我们都必须客观地看到,机器翻译作为一个科学问题被学术界不断深入研究的同时,企业家门已经从市场上获得了响应的利润。
  在机器翻译研究中实现人机共生(man-machine symbiosis),人机互助比追求完全自动的高质量的翻译(Full Automatic Hig Qulity Translation ,FAHQT)更现实、更切合实际。
  我们需要的是计算机帮助人类完成某些翻译工作,而不是完全替代人,人与机器翻译系统之间应该是互补的关系,而不是互相竞争。
  用机器翻译的个别例子去批评甚至诋毁机器翻译研究是不适当的。
    

看几个例子

1: The spirit is willing, but the flesh is weak.(心有余,而力不足。)

利用Systran进行翻译: 精神是愿意的, 但骨肉是微弱的。

English-> Russian->English:(如果将上面那句应用,从英语翻译成俄语,再从俄语翻译回英语,将会得到下面的英语,可以看到英语意思已经完全变样 了。)

The wine is good, but the meat is spoiled.(酒是好的,肉是馊的。)
2: Out of sight, out of mind.眼不见,心不烦。

利用Systran翻译为:出于视域, 在头脑外面。

From English to Russian(从英语翻译成俄语意思将会变为):又瞎又疯。

信息检索(Information retrieval):信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。

面向多语言的信息检索叫做跨语言信息检索。(Cross-language / Trans-lingual information retrieval)。代表系统:Google: http://www.google.com。百度:http://www.baidu.com.cn/。目前已有300多亿个网页,每天几百万增加,获得的信息只有1%被有效利用。

自动文摘(Automatic summarization / Automatic abstracting):将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写。
应用:电子图书管理、情报获取等。

文档分类(Document categorization):文档分类也叫文本自动分类(Text categorization/calssification)或信息分类(Information categorization / classification),其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。
应用:图书管理、内容管理、信息监控等。

问答系统(Question-answering system):通过计算机系统对人提出的问题的理解,利用自动推理等手段在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统(man-computer dialogue system)。
应用:人机对话系统、信息检索等。

信息过滤(information filtering):通过计算机系统自动识别和过滤那些满足特定条件的文档信息。
应用:网络有害信息过滤、信息安全等。

语言教学(Language teaching):借助计算机辅助教学工具,进行语言教学、操作和辅导等。
应用:语言学习等。

文字识别(Charater recognition):通过计算机系统对印刷体或手写体等文字进行自动识别,将其转换成计算机可以处理的电子文本。
应用:文字输入、识别等

文字编辑和自动校对(Automatic proofreading):对文字拼写、用词、甚至语法、文档格式等进行自动检查和校对和编排。
应用:排版、印刷和书籍编撰等。

语音识别(speech recognition):将输入计算机的语音信号识别转换成书面语表示。语音识别也称自动语音识别(automatic speech recognition,ASR)。
应用:文字录入、人机通讯、语音翻译等等。
困难:大量存在的同音词、近音词、集外词、口音等等。

例如:输入:美欧贸易摩擦升级
识别结果:美欧贸易摩擦生机

极端情况下的同音字(词)现象
- 施氏食狮史(赵元任)
石室诗士施氏,嗜狮,誓食十狮。氏时时
适市视狮,十时,适十狮适市,是时,适施氏
适市,施氏视是十狮,拭矢试,使是十狮逝世,
适石室,石室湿,氏使侍拭石室,石室拭,始
食是十狮尸,始识是十狮尸,实十石狮尸,试
释是事。

文语转换(text-to-speech):将书面文本自动转换成对应的语音表征。
应用:朗读系统、人机语音接口等。

说话人识别/认同/验证(speaker recognition/ identification/ verification):对一言语样品做声学分析,依此推断(确定或验证)说话人的身份。
应用:信息安全、防伪等等。

1.4 自然语言理解研究的基本问题

1、语音学(Phonetics)问题:研究词及其语音的关联。
这里写图片描述

2、形态学(Morphology)问题:研究词是如何由意义的基本单位—词素(morphemes) 构成的。
这里写图片描述

3、语法学(Syntax)问题:研究句子结构成分之间的互相关系和组成句子序列的规则。
这里写图片描述
上面这句话从语法的角度考虑是没有任何问题的,但是不符合实际。

4、语义学(Semantics) 问题:研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。

这句话说了什么?
(1) 苹果不吃了。(在这句话中苹果不是主语,而是省略掉的“我”才是真正的主语。)
(2) 这个人真牛。(这句话意思是这个人很厉害,而不是这个是头牛.....)
(3) 这个人眼下没些什么,那个人嘴不太好。(意思是这个人不会察言观色,而不是他的嘴是坏的。)

5、语用学(Pragmatics) 问题:研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响。从狭隘的语言学观点看,语用学处理的是语言结构中有形式体现的那些语境。相反,语用学最宽泛的定义是研究语义学未能涵盖的那些意义。

为什么要说这句话?
A: 看看鱼怎么样了?
B: 我刚才翻了一下。
通过上面的对话可以看出,是在讨论做饭。

《本节完》

所谓的不平凡就是平凡的N次幂。------------Ada
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱科研的徐博士

请各位看官赏赐,小仙女笔芯笔芯

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值