语言大体上是一定规则下的字符串集合;然而对于我们常见的自然语言来讲,这个字符串的集合却是千变万化,内含玄机的.我们以中文汉语为例,来继续聊这个话题(事实上我们使用的工具,也就是汉语,于是形成一个有趣的局面:以汉语聊汉语言).
传统的语言学,有一重要的方向即是训诂学.对于训诂学, 近代学者黄侃的解释是,“诂”就是“故”,也就是“本来”的意思(推求本义);“训”就是“顺”,“引申”的意思。总体说就是“用语言来解释语言的学问”。由此看来,考察语言的对象,推求其本义,也就是传统语言学的一个重要特征.不过训诂学是以推求词义为根本,主要方法是以形说义,以声求义等. 近代训诂学大师章太炎曾将古代的小学分为三类,另有文字之学与音韵之学,分别以形、音为首,与训诂学有区别而又非全无联系.
这表明在西方传统语法引入中国以来,对于“语言”的研究,中国的传统思路是一如既往的采取针对汉语言的思路,形声表义,义义转合,并由此而得句子与篇章.这一思路,也许是象形汉字的自然结果.(似乎可以这样叙说,不知确也不确:传统语言学中的语言单位,有字、词、句子乃至篇章,而字词等,皆由三元组<形,声,义>入手,以 “义”为根本出发点和落脚点,来进行语言现象的研究)
在里程碑式的《马氏文通》(1898)发表以后,中国开始引入西方的传统语法.从此以后,语法观念兴盛,而对于汉语言的着眼点,也开始大批转向西方式的语法学.在新旧的理论体系下,汉语言的研究出现了明显的方法论的裂痕.当然,方法论的裂痕不唯古今;乃至当代的自然语言理解与自然语言处理,亦是学派纷呈.
西方对于语言的研究,自希腊之时便已开始;一个有趣的断言,即把人定义为 “会说话的动物”,便可见希腊人对语言的重视.不过语言学自从哲学中脱离出来以后,在西方也是经过了漫长的发展,历程不在此叙述了.然而至于今日,撇除个别语言哲学论题不谈,西方的传统语法学,逻辑学派,以及乔姆斯基的转换-生成语法等,都对中国汉语言的研究产生了深远的影响.
在计算机出现之前,语言学的研究都是面向人的,而计算机出现之后,人类开始试图使机器理解并能处理自然语言:这是一个宏伟的梦想!虽然在开始,人们并没有意识到这个征途上的长路漫漫.然而的确,有了面向机器的语言研究之后,人类更加深刻的理解了(着)语言的本质与意义;也许在最终的一天,人类可以跨越上帝在巴别塔所设的障碍,但在这之前,都需要身背十字架J.
面向机器的汉语言研究,是现在中文信息处理的主要内容.由于科学自身的进程和市场的促使,中文信息处理的热度逐渐增加.目前在国内主要有以下几种研究方式(方法论区分):
其一是统计学加语料库,这一流派上世纪90年代兴起,至今已是在中文信息处理中占有主流位置,且在不断发展中(它也有自身的巨大缺陷,后谈),因其处理依据源于大规模语料库而被称为经验学派;其二是语法加语义体系,使用相关规则,仍为人的直觉理性在起作用,为理性学派之一;其三是独立建立语义资源,并以此来直接处理语义知识,也属于理性学派之一;其四是以自然语言逻辑为依托,开展自然语言处理与理解的研究,仍应归为理性学派.还有一些研究单位仅建立资源,不做软件系统,自然暂时可以不考虑学派之分.
然而流派划分并不是必然的,也并非全然合理.随着时间的推移,新旧交替,融合发展,是历史永恒的选择.我们也将在后续的内容中看到,新的流派是如何继承前人之路,并以此发展的.
接下来我们将聊一聊语言的具体问题和研究内容,来体会为什么它是如此的熟悉而又神秘!自然,可以先表明,这一系列的闲聊是以自然语言处理(或理解)为目的的,仅做闲谈,不做其他.部分材料来源于笔记,部分材料来源于经验;或有谬误,肯请指出.所用材料,未注出处,敬请原谅.