《NLP汉语自然语言处理原理与实践》学习二

汉语语言学研究回顾

汉语属于汉藏语系,与世界各国广泛使用的拼音文字相比,它更像一种古老的孤立语言。无论从字符的结构和形式上都显得特立独行。这是中华民族独特的地理位置和长期统一的发展历程所决定的。虽然,汉语在历史上先后吸收和同化了匈奴、鲜卑、突厥、契丹、满、蒙古、梵语等语言中的许多成分,但是两千多年来,汉语特有的符号化表现形式却一直没有改变过。

从记事谈起

大量的考古事实证明,文字的产生从氏族公社的记事开始。最初的文字符号记录了氏族群体的劳动和分配、祭祀和占卜等活动。在系统的文字符号形成之前,这些氏族成员采用以结绳记事为主的各种手段,最常用的主要有三种:结绳记事、岩画记事和刻契记事。

结绳记事起源于母系氏族社会——旧石器时代后期。

岩画可能起源很早,不能以现存的岩画为据说明它的起源。中国自古就有“书画同源”一说,这是因为最早的中文文字推测主要来源于岩画,汉字符号与岩画如同兄弟,同根而生,有很多内在的联系。

象形字来源于绘画的重要证据是东巴文。东巴文是局域西藏东部及云南省北部额少数民族纳西族所使用的文字。东巴文来源于纳西族的宗教典籍兼百科全书的《东巴经》。由于这种文字由东巴(智者)所掌握,故称为东巴文。

东巴文是一种原始的图画象形文字,现在仍为东巴教徒传授使用,书写东巴经文。东巴文是一种兼备表意和表音成分的图画象形文字。其文字形态十分原始,甚至比甲骨文的形态还要原始,属于文字起源的早期形态,但亦能完整记录典藏。

 

 

刻划(刻契)记事,是在木头、竹片、石块、泥板等物体上刻划各种符号和标志,用以表示一定的意义。氏族和部落有专门记事用的刻划木桩。刻划记事的木桩发展到后来,变成了复杂的综合记事的“记事桩”。记事桩将刻划记事、系物记事、结绳记事集于一体,并体现了分类记事的手段,如狩猎、战争和部落氏族内的物质分配、祭祀、占卜,分类分组记录。记事和记数采用不同的手段。记事利用系物的办法,记数采用结绳办法,记时则用刻划(刻契)的办法。这些办法综合在一起,制作一个庞大的记事桩。

刻契记事替代结绳记事时一种书写载体的革新,使记事载体从一维发展到了二维。刻契从岩画中吸收和抽象了大量的图形符号,抽象出事物的形象,以此丰富了记事内容。因此,刻契记事为各类记事符号转变为抽象的文字符号提供了介质。

古文字的形成

在原始社会后期,记事符号逐渐演变为文字符号。当社会进入到奴隶制时代,氏族公社的组织形式逐渐正式化,最终演变成国家,文字逐渐产生。由于历史久远,迄今所能见到的、真正形成体系的最早汉字是商代的甲骨文,但据实际情况来看,汉字体系的形成,可能在更早的年代——夏王朝时期。

文字是一种记录语言的符号,文字符号必须具备形、音、义的三者一致性。传说中,汉字的创造者是仓颉。一说,仓颉是伏羲时代的记事官;一说,仓颉是皇帝时代史官。历史久远已不可考。现在来看,记事最早的甲骨文汉字,也绝不是一个人能够完成的,必然经历了漫长的积累和演变的过程。

但是,文字自产生开始便有两种矛盾:一种矛盾是文字与语言的矛盾,即文字的数量多寡与能否表达与之对应的语言之间的矛盾;另一种矛盾是文字与书写者的矛盾。

后人在总结前人的造字方法是,最重要的成果就是“六书”,也是为了解决文字与语言的矛盾。“六书”是由汉代学者根据汉字的构成和使用方式归纳的六种模式,总称为六书。六书是指:“象形”、“指事”、“会意”、“转注”、“假借”、“形声”。

  1. 象形:“象形这,画成其物,随体诘诎,日月是也”。所谓的象形字是把具体的物体以绘画的形式表现出来,形成文字,根据物体的不同绘画形式也不同。象形文字构造了后续几种造字方法的字根,也称为本字,即其他的造字方法都是以象形字的字形为基础,在此结构上做出某种变形。有的添加笔画,反映了局部与总体的关系——指事字;有的增加偏旁部首,反映了含义与读音的关系——形声字;有的用本字表达其他的含义——假借;将多个独体字组合到一起,引申出其他的含义——会意,等等。

  2. 指事:“指事者,视而可识,察而见意,上下是也”。也就是说,一眼看上去就可以识别出整体(本字),仔细观察就能发现意义所在。指事字通常表示某种整体与局部的关系或者相对位置的概念。

  3. 会意:“会意者,比类合意,以见指撝,武、信是也”。会意造字常用两个及两个以上的独汉字,根据各自的含义通过左右拼接、上下拼接等方式表示更为复杂的含义,从而构造出新字。其表示的含义也逐渐脱离了直观的自然界事物,而引申为表达人们生产生活中的某种关系或活动,常用来表示某种行为或状态。

  4. 形声:“形声者,以事为名,取譬相成,江河是也”。形声法师在象形字、指事字、会意字的基础上形成的一种新的造字法,它仅由连个独体字——表示意义范畴的意符(形旁)和表示声音类别的声符(声旁)复合而成。巧妙的把读音与语义结合起来,简化了造字的结构,又清晰地表达了事物的范畴和读音。

  5. 转注:“转注者,建类一首,同意相手,考老是也”。这句话说的是,用一个部首来表征部内的字,意义相同的字之间可以相互解释。转注造字法强制将语义相近的字(词)都归为一类,是用同一或相近的字形(偏旁部首)来构造。

  6. 假借:“假借着,本无其字,依声讬事,令长是也”。意思是说,假借发是文字中Wie表达某一新事物,本来没有表达它的字,就依据读音去找一个音同或者音近的现成字来赋予其新的词义,用以表达该中事物。例如,外来词的中文译名就是根据外来词的发音,再找到对应的汉字,一个音节、一个音节地拼出来的。

字形的流变

文字一经形成就逐渐发展开来。殷商时期,文字的持有者主要是奴隶主贵族,以巫蛊为主,文字逐渐在奴隶制国家内部的统治阶层之间学习与传播,用于祭祀占卜,谋议国事、发号施令等,称为记述帝王和贵族言行的重要记事工具。到了战国时期,文字首先在史学学者和文化领域得到广泛传播,文学体裁也不断发展,形成了著名的诸子百家、百家争鸣的时代。但是,到了战国末期,由于连年的战争,把战时信息传播的及时性、数量和准确程度都提到到了前所未有的高度,文字的使用者进一步扩展到了一般军事统帅和普通官吏。一方面使用文字的人员的数量增加,更重要的是,文字需要表达的内容已经渗透到政治生活和军事行动中,文字本身的数量也空前的扩展了。这一切都导致篆书这种绘图式(易产生歧义)的、书写缓慢、字形难以统一的象形体越来越不能满足战争和通知的需要。一场文字变革(历史上称这次变革为“隶变”)迫在眉睫。

隶变不仅是古汉字一次重要的变革,也是古文字向今文字发展演变的重要转折点。是古今欢子的一个重要的分水岭。后世的楷书、行书都是从隶书发展而来的。

语言的初始形态

人类最初的表达形式(指称——陈述)、思维形式(本体——属性)和逻辑形式(主词——谓词)是高度一致的。

 

三个平面中的语义研究

早在1938年,莫里斯提出符号学有三个分支:语形学、语义学和语用学。要全面分析一种语言,这三个方面都是必不可少的。

胡裕树先生指出,语法研究中:

句法平面是指对短语和句子进行句法分析。句法平面着重研究不同层级的语言符号之间的关系。

语义平面是指对句子进行语义分析。语义平面着重研究符号与所指事物之间的关系

语用平面是指对句子进行语用分析。语用平面着重研究语言符号与使用者之间的关系。

 

三个平面最核心的部分就是语义,对于汉语而言,语义对句子的生成和理解都具有先决作用,影响最大。

所谓语义(Semantic)就是指信息(数据)的意义,具体到自然语言中,就是词的意义和句子的意义。语义具有范畴化(领域性)的特征,不属于任何范畴的语义是不存在的。

1957年,乔姆斯基出版的《句法结构》提出了三大规则:短语结构规则、转换规则和语素音位的规则。乔姆斯基的学生菲尔墨认为使用各类格框架分析句法结构要比转换规则方便和精密的多。从1966年开始到1977年的11年间,他发表了一系列的论文,最终形成了一个新的语法学派——格语法。在传统中,“格”是指某些屈折语法中用于表示名称和代词的形态变化,这种语法格都有显性的形态标记。传统语言学中所说的格只是表层格。然而,“格”语法所说的格不是这个含义,它是指句子中的体词(名词、代词等)和谓词(动词、形容词)之间的及物性关系。这些关系表示为一种语义关系,也称为“深层格”。格语法区别于其他语法的一个最重要的贡献是给出了格表,格表对之后的语义角色标注理论产生了直接的影响,最终称为句子语义解析的通用数据类型。

格语法创新地研究了句子的语义平面,把句子的语义结构(而不是语法)作为研究的目标,与同时期的依存句法相同,菲尔墨认为动词是句子的中心,对句子语义平面的基本看法是:句子S(Sentence)是情态M(Modality)与命题P(Proposition)的组合,即S=M+P。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值