自然语言处理简介

一、定义
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。(百度百科定义)
二、自然语言处理的测试要求
判断计算机是否“理解”了某种自然语言,具体的判别标准至少有如下四条:
1、回答问题:机器能正确回答输入文本中的有关问题;
2、文摘生成:机器有能力产生输入文本的摘要;
3、释义:机器能用不同的词语和句型来复述其输入文本;
4、翻译:机器具有把一种语言(源语)翻译成另一种语言(目标语)的能力。
三、自然语言处理需要解决的问题
自然语言处理的首要任务是将语言学知识在计算机中表示出来,在此基础上,才能完成文本意义的计算,也就是文本意义的解释(理解)。
另外,歧义消解是自然语言理解的一个基本问题。因为在词的层面有一词多义和多词同义的问题,一个句子在不同语言环境中也有不同的含义,对篇章的理解更是仁者见仁,智者见智。
四、发展历程
20世纪60年代以关键词匹配为主流的早期;
70年代以语法-语义分析为主流的中期;
80年代开始走向实用化和工程化的近期。
自然语言处理主要分为两大派别:1、基于规则的语法-语义分析 2、基于统计学方法的语料库语言学。
五、中文语言处理存在的障碍
1、输入问题,汉字不是拼音文字,而是象形文字或音形结合的文字;
2、分词问题,多数中文句子是一长串连续的汉字(而不是以空格或其他分隔标记分开的单词),而且词汇缺少明显的形态变化;
3、句法分析问题。
六、关于自动分词
自动分词是汉语特有的研究课题,也是中文信息处理技术中最基础,最重要的一个问题。就是把一个句子按照其中词的含义进行切分。
分词单位:指汉语信息处理使用的、具有确定的语义或语法功能的基本单位,包括词和少量词组。
词:最小的能独立运用的语言单位。
词组:由两个或两个以上的词,按一定的语法规则组成,以表达一定意义的语言单位。
注:为了实现机器自动分词,首先需要建立高效准确的分词词典,需要有快速的字符串匹配算法,由于汉语的广泛的歧义性,消歧算法的研究显得尤为重要,最后还要解决未登录词的识别问题。

参考文献:
1、苗夺谦,卫志华.《中文文本信息处理的原理与应用》.2007.
3、自然语言处理学习相关书籍推荐 http://www.52nlp.cn/%e4%b9%a6%e7%b1%8d
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值