初学NLP,先从定义概念上了解一下它吧。
从研究内容和方法上来看,自然语言处理研究集认知科学、计算机科学、语言学、数学与逻辑学、心理学等多种学科于一身。
一、定义
近二三十年中,“自然语言处理”的研究得到了前所未有的重视,但是对其的定义仍没有一个确定唯一的答案,但是有多位专家学者给出了自己的见解:
- 冯志伟学者在1996年出版的《自然语言的计算机处理》中定义到:自然语言处理就是利用计算机为工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工技术。但该定义比较笼统。
- 美国计算机科学家马纳瑞斯在《从人-机交互的角度看自然语言处理》一文中给出NLP的定义:自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力和语言应用的模型,建立计算机框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用的系统,并探讨这些实用系统的测评技术。
二、基本方法
一般认为,自然语言处理中存在着两种不同的研究方法,一种是理性主义方法,一种是经验主义方法。
- 理性主义方法——基于规则和程序,将自然语言理解为符号
- 经验主义方法——基于统计方法基础
目前大多学者认为基于统计的经验主义更能达到研究目的。