统计自然语言处理书籍阅读心得一

1.自然语言处理研究的内容:
       (1)机器翻译(machine translation, MT):实现一种语言到另一种语言的自动翻译。
       (2)自动文摘(automatic summarizing或automatic abstracting):将原文档的主要内容和含义自动归纳提炼出来形成摘要或缩写
        (3)信息检索(information retrieval):信息检索也称情报检索,就是利用计算机系统从海量文档中找到符合用户需要的相关文档。面向两种或两种以上语言的信息检索叫做跨语言信息检索(crosslanguage/trans-lingual information retrieval)。
        (4)文档分类(document    categorization/classification):                                                    文档分类也称文本分    类(textcategorization/classification)或信息分类(information categorization/classification),其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。
       (5)问答系统(question-answering system):通过计算机系统对用户提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。
        (6)信息过滤(information filtering):通过计算机系统自动识别和过滤那些满足特定条件的文档信息。
        (7)信息抽取(information extraction):指从文本中抽取出特定的事件(event)或事实信息,有时候又称事件抽取(event extraction)。
       (8)文本挖掘(text mining):有时又称数据挖掘(datamining),是指从文本(多指网络文本)中获取高质量信息的过程。
        (9)舆情分析(public opinion analysis):舆情是指在一定的社会空间内围绕中介性社会事件的发生发展和变化民众对社会管理者产生和持有的社会政治态度。
     (10)隐喻计算(metaphorical computation):“隐喻”就是用乙事物或其某些特征来描述甲事物的语言现象[周昌乐,2009]。
        (11)文字编辑和自动校对(automatic proofreading):对文字拼写、用词,甚至语法、文档格式等进行自动检查、校对和编排。
        (12)作文自动评分:对作文质量和写作水平进行自动评价和打分。
        (13)光读字符识别(optical character recognition, OCR):通过计算机系统对印刷体或手写体等文字进行自动识别,将其转换成计算机可以处理的电子文本,简称字符识别或文字识别。
        (14)语音识别(speech recognition):将输入计算机的语音信号识别转换成书面语表示。语音识别也称自动语音识别(automatic speechrecognition, ASR)。
         (15)文语转换(text-to-speech    conversion):将书面文本自动转换成对应的语音表征,又称语音合成(speech synthesis)。
        (16)说话人识别/认证/验证(speakerrecognition/identification/verification):对一说话人的言语样本做声学分
析,依此推断(确定或验证)说话人的身份。
2.自然语言处理涉及的几个层次:
        形态学(morphology):形态学(又称“词汇形态学”或“词法”)是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学和语义学的结合部位.
        语法学(syntax):研究句子结构成分之间的相互关系和组成句子序列的规则。其关注的中心是:为什么一句话可以这么说,也可以那么说?
        语义学(semantics):是一门研究意义,特别是语言意义的学科[毛茂臣,1988]。语义学的研究对象是语言的各级单位(词素、词、词组、句子、句子群、整段整篇的话语和文章,乃至整个著作)的意义,以及语义与语音、语法、修辞、文字、语境、哲学思想、社会环境、个人修养的关系,等等[陆善采,1993]。其重点在探明符号与符号所指的对象之间的关系,从而指导人们的言语活动。它所关注的重点是:这个语言单位到底说了什么?
        语用学(pragmatics):是现代语言学用来指从使用者的角度研究语言,特别是使用者所作的选择、他们在社会互动中所受的制约、他们的语言使用对信递活动中其他参与者的影响。语用学可以是集中在句子层次上的语用研究,也可以是超出句子,对语言的实际使用情况的调查研究,甚至与会话分析、语篇分析相结合,研究在不同上下文中的语句应用,以及上下文对语句理解所产生的影响。其关注的重点在于为什么在特定的上下文中要说这句话?
3.自然语言处理面临的困难:
        实现所有这些应用目标最终需要解决的关键问题就是歧义消解(disambiguation)问和未知语言现象的处理问题。一方面,自然语言中大量存在的歧义现象,无论在词法层次、句法层次,还是在语义层次和语用层次,无论类语言单位,其歧义性始终都是困扰人们实现应用目标的一个根本问题。因此,如何面向不同的应用目标,针对不同语言单位的特点,研歧义消解和未知语言现象的处理策略及实现方法,就成了自然语言处面临的核心问题。
               例如下例:例句4 Put the block in the box on the table.
                                在例句4中,“on the table”既可以修饰“box”,也可以限定“block”。于是,我们可以得到两种不同的句法结构:
                    (1)Put the block [in the box on the table].
                    (2)Put [the block in the box] on the table.
            实际上,这种歧义结构分析结果的数量是随介词短语数目的增加呈指数上升的,其歧义组合的复杂程度随着介词短语个数的增加而不断加深,这个歧义结构的组合数称为卡特兰数(Catalan numbers,记作Cn),即如果句子中存在这样n(n为自然数)个介词短语,Cn可以由下式获得:
                                                      
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值