世界语言知识图谱系列一:汉藏语系
SISU 文研
编者按
上海外国语大学世界语言博物馆对接学校“诠释世界、成就未来”的办学理念,以 “世界语言多样性” 为主题,秉持 “语汇世界、言聚全球”(Words, Worlds) 的立馆理念,以语言学及其交叉学科为学术理论基础构建全球语言知识体系,开展科普教育,致力于推动国别区域全球知识的关键供给和中外文明对话。为更好地推进语言学相关理论及知识的中外交流和普及教育,即日起推出“世界语言知识图谱”专栏, 聚焦于世界语言研究前沿,侧重于语言学基础理论及本体研究,践行语言博物馆的学术传播与文化传承使命,为外语学科的创新发展和外语教育的改革发展做出贡献。
汉藏语系是世界上最庞大最具活力的语系之一,横贯了整个东亚东南亚的大陆区域(包括中国大部分区域、喜马拉雅山脉以南的尼泊尔、不丹和印度部分区域,以及中南半岛的缅甸)。汉藏语系拥有14亿的使用人口,其中汉语方言(或称为汉语族语言)的使用人口占13亿。
学界对汉藏语系的分类主要持两种观点(Jacques 2017):
- 汉藏语系两支分类说(bifurcate Sino-Tibetan),包括汉语族(Sinitic/Chinese)和藏缅语族(Tibeto-Burman)。
- 大汉藏语系说(greater Sino-Tibetan),包括汉语族、藏缅语族、壮侗语族(Tai-Kadai/Kra-Dai)和苗瑶语族(Hmong-Mien)。
据Jacques(2017),剔除壮侗和苗瑶语的汉藏语系两支分类说是目前被学界广泛接受的一种分类方法;而持大汉藏语系观点的学者主要集中在中国大陆地区,这主要是受到李方桂(Li Fang-kuei 1973)的影响。
由于汉族具有统一的民族认同,可以认为汉语族下只有汉语一种语言,主要包括10个分支(熊正辉 张振兴 2012:地图A2,见图1):
- 官话(由于分布范围较广,在包括图中等许多场合下会以次级单位来称呼,分为东北、北京、冀鲁、中原、胶辽、江淮、兰银、西南八片)
- 晋语(北方唯一的非官话区)
- 吴语
- 闽语(内部差异较大,可分为闽东、闽南、莆仙三种沿海闽语,和闽北、闽中、邵将三种山区闽语)
- 客家话
- 粤语(分布范围其实在粤西和桂东,不等于广东省的方言)
- 湘语
- 赣语
- 徽语
- 平话和土话(土话是指一系列分布在湘南、粤北、桂北等地且谱系尚不明确的汉语方言总和)
图1 汉语方言(熊正辉 张振兴 2012)
当然,有相当一部分的汉语方言在分类上还存在争议,特别是不同方言区域交界带上的语言(例如吴语和赣语交界处的徽语区,再如湘赣交界处很多语言同时兼具赣语和湘语的特征);此外,还有一些汉语方言无法归入上述10类中的任何一类,例如,湖南湘西的瓦乡话1。
和汉语族相比,藏缅语族的次分类存在更多的争议。自Shafer(1955)以来,藏缅语的分类不断出新,例如,Benedict(1972),Matisoff(1978,2015),Bradley(2002),Jacques & Michaud(2011)等。这里仅介绍两个代表性的分类:Jacques & Michaud(2011)和Matisoff(2015),见图2、3。
Jacques & Michaud(2011)提出了汉藏语的四分分类:汉语族、藏语族、缅-羌语族和其他主要分支,即将藏缅语分成了三支并将这三支置于和汉语平行的位置,这四大语族共同构成了汉藏语系,见图2。
图2 汉藏语的分类(Jacques & Michaud 2011)2
Matisoff(2015)对汉藏语采取的是被学界广泛接受的二分法,即,汉藏语系分为汉语族和藏缅语族。藏缅语族下包含8个语支,在图中依次从上到下为:
- 藏南区域诸语
- 白语支
- 侬语支
- 土家语
- 喜马拉雅诸语
- 彝-缅-纳西语支
- 克伦语支
- 西夏-羌语支
图3 汉藏语的分类(Matisoff 2015:xxxii)
其中,藏南区域诸语和喜马拉雅诸语属于地理区域的分类而非基于亲缘关系的分类。即这两片语言内部的关系其实并不明朗,存在划分出更多语支的可能。和Matisoff(1978)的分类相比,除了增加了一些新报道的语言,2015版最大的不同是在藏南区域诸语中增加了萨尔语支(Sal languages)。
事实上,学界对白语的分类也是存在争议的。由于白语受汉语的影响大,但同时又体现出一些藏缅语的特征,将其归为汉语还是藏缅语是个难以抉择的问题(Thurgood 2003: 19)。然而,近些年不断有证据表明,白语是一个深受汉语影响的藏缅语族语言(Thurgood 2017: 31)。值得一提的是,整个藏缅语族中,只有白语支和克伦语支的语言和汉语族一样使用VO(动宾)的语序,其余的藏缅语一律是OV的语序。
从使用者的数量看,汉藏语是仅次于印欧语的第二大语系,但汉藏语的起源和发展仍是颇具争议的话题。Sagart et al.(2019)通过建立跨语言数据库、运用语言比较的方法去识别语音对应关系和确定同源词,并以系统发生法为原则,推导了汉藏语系各语言之间的关系,从而推测出了汉藏语系大概的产生时间和发源地。根据他们的研究,汉藏语系的产生时间大致可以追溯到距今7200年前(7200 B.P.),和磁山文化、仰韶文化有一定的关联;汉藏语系的发源地,也因此指向了中国河北一带。
~
注:
-
瓦乡话是否是汉语在一段时间内是学界热议的话题(见王辅世 1982)。Baxter & Sagart (2014: 34, 32)则指出瓦乡话无疑是一种汉语方言,对上古汉语构拟提供了独立的证据。他们认为,跟闽语类似,瓦乡话的一系列特征显示它并不是从中古汉语发展出来的,但是否应该将其归为闽语支还言之尚早。
-
需要注意的是,由于Jacques & Michaud(2011)是针对纳西(Naxi)、纳(摩梭;Na)和水田拉热话(Laze)的研究,因此在谱系图中仅凸显了这三个语言在汉藏语中的位置。
参考文献
王辅世. 1982. 湖南泸溪瓦乡话语音. 语言研究1982-1. 135–147.
熊正辉 张振兴主编. 2012. 中国语言地图集·汉语方言卷. 北京:商务印书馆.
Baxter, William H. and Laurent Sagart. 2014. Old Chinese: A new reconstruction. Oxford: Oxford University Press.
Benedict, Paul K. 1972. Sino-Tibetan: A conspectus. (Princeton-Cambridge Studies in Chinese Linguistics, 2.) In Matisoff, James A. (ed.) New York: Cambridge: Cambridge University Press.
Bradley, David. The Subgrouping of Tibeto-Burman. In Beckwith Chris & Blezer Henk (eds.), Medieval Tibeto-Burman languages. Leiden: Brill. 73–112.
Li, Fang-kuei. 1973. Languages and dialects of China. Journal of Chinese Linguistics 1/1. 1-13.
Jacques, Guillaume. 2017. The genetic position of Chinese. In Rint Sybesma, Wolfgan Behr, Yueguo Gu, Zev Handel, C.-T. James Huang, James Myers (eds.), Encyclopedia of Chinese language and linguistics, 2nd edn. Leiden: Brill. 297-306.
Jacques, Guillaume and Alexis Michaud. 2011. Approaching the historical phonology of three highly eroded Sino-Tibetan languages Naxi, Na and Laze. Diachronica 28. 468-498+1-25.
Matisoff, James A. 1978. Variational semantics in Tibeto-Burman. The ‘organic’ approach to linguistic comparison. (Occasional Papers of the Wolfenden Society on Tibeto-Burman Linguistics, VI.) Philadelphia: Institute for the Study of Human Issues.
Matisoff, James A. 2015. The Sino-Tibetan etymological dictionary and thesaurus. Berkeley: TheRegents of the University of California.
Sagart, Laurent, Guillaume Jacques, Yunfan Lai, Robin J. Ryder, Valentin Thouzeau, Simon J. Greenhill, & Johann-Mattis List. 2019. Dated language phylogenies shed light on the ancestry of Sino-Tibetan. Proceedings of the National Academy of Science of the United States of America 116. 10317–10322. DOI: https://doi.org/10.1073/pnas.1817972116
Shafer, Robert. 1955. Classification of the Sino-Tibetan languages. Word (Journal of the Linguistic Circle of New York) 11(1). 94-111.
Thurgood, Graham. 2003. Sino-Tibetan: genetic and areal subgroups. In Graham Thurgood & Randy J. LaPolla (eds.), Sino-Tibetan Languages. London & New York: Routledge. 1-21.
Thurgood, Graham. 2017. Sino-Tibetan: genetic and areal subgroups. In Graham Thurgood & Randy J. LaPolla (eds.), Sino-Tibetan Languages, 2nd edn. London & New York: Routledge. 1-39.
世界语言知识图谱系列二:印欧语系
SISU 文研
编者按:
上海外国语大学世界语言博物馆对接学校“诠释世界,成就未来”的办学理念,以“世界语言多样性”为主题,秉持“语汇世界、言聚全球”(Words, Worlds)的立馆理念,以语言学及其交叉学科为学术理论基础构建全球语言知识体系,开展科普教育,致力于推动国别区域全球知识的关键供给和中外文明对话。 为更好地推进语言学相关理论及知识的中外交流和普及教育,特推出**“世界语言知识图谱”**专栏,聚焦于世界语言研究前沿,侧重于语言学基础理论及本体研究, 践行语言博物馆的学术传播与文化传承使命,为外语学科的创新发展和外语教育的改革发展做出贡献。
印欧语系是主要分布于亚欧大陆西部和南部的语系,包括现今几乎所有的欧洲语言,和亚洲地区的部分语言。根据《民族语》(Ethnologue)的统计,印欧语系目前有446种语言,使用者约32.9亿,是当今世界使用者人数最多、语言分布最广的一个语系。
印欧语系有着悠久的文字书写传统,许多古代语言也因此得以保存,并为人所知。早在16世纪,欧洲人就注意到印度的梵语和希腊语、拉丁语、波斯语之间有相似之处。 1647年,荷兰语言学家马库斯·范·博克斯霍恩(1612-1653)提出荷兰语、德语、拉丁语、希腊语、波斯语、斯拉夫语、凯尔特语以及波罗的海诸语都有一个共同的祖先语言,称之为**“斯基泰语”(Scythian)**。1786年,英国语言学家威廉·琼斯(1746-1794)在孟加拉亚洲协会上的演讲中 再次指出印欧语之间具有亲缘关系,也开启了印欧语言学研究之门。1813年,托马斯·杨(1773-1829)创立了“印欧语系”这一术语。
典型的印欧语和拉丁语类似,是有词尾变化的屈折语,利用词缀或元音交替产生多种名词变格或动词变位,并区分句子成分中的主语和宾语。现今,英语和法语已丢失了大部分原有的词尾变化,而俄语则较好地保留了这些变化。印欧语对格、数或定指等语法范畴的标记较为严格,而世界上许多语言多依靠语境判断这些语法意义。音系上,印欧语有较多的塞音,有清浊对立,但擦音较少,较少用声调来区别词义。
语言学家根据现存的印欧语和那些只有文字记载的印欧语,对原始印欧语进行重构,并根据亲缘关系建立了**语言子群,**形成了语族或语支等概念。一般来说,印欧语系在历史上至少包含10个语族,它们分别是:
安纳托利亚语族(已消亡):该语族历史上分布于小亚细亚(今土耳其境内的西部地区)。古安纳托利亚语可追溯到公元前2000年的赫梯语(用阿卡德楔形文字书写,是最早有书面记录的印欧语)、卢维语(两种变体,分别用楔形文字和象形文字【1】书写)和帕拉语(用楔形文字书写)。新安纳托利亚语可追溯到公元前1000年的吕底亚语、吕基亚语、米利扬语、卡里安语、西戴语和皮西迪亚语。
~
~
~
(赫梯语泥板,所谓“楔形文字”其实是一系列经历漫长历史演变、且有多种语言使用的文字总和,彼此间差异较大,赫梯文不能和其它诸如苏美尔文等一概而论)
~
~
(部分象形卢维文字,注意这套系统和古埃及的圣书体尽管长得有点相似,但二者为独立发展而成,彼此没有联系)
亚历山大大帝征服小亚细亚后,该地区被希腊语化,至罗马帝国末年、拜占庭时期初年,安纳托利亚诸语全部消失,成为印欧语系已知的最早消亡的语族。
印度-伊朗语族:该语族是印欧语系目前最东边的一个语言分支,地理分布上从欧洲(罗姆语/吉普赛语)、土耳其(库尔德语、扎扎其语和戈拉尼语)、高加索(奥塞梯语)向东到中国新疆(色勒库尔语,我国塔吉克族使用)、印度阿萨姆邦(阿萨姆语),同时向南延伸到斯里兰卡(僧伽罗语)和马尔代夫(迪维希语)。据研究,该语族的形成和上古印欧人向东的大迁徙有关。这一语族主要包括伊朗语支、印度语支,以及目前了解较少的努里斯坦语支(分布于阿富汗和巴基斯坦边界地区)。
印度语支(又称“印度-雅利安”语支)有超过200种语言,主要分布在印度、孟加拉、尼泊尔和斯里兰卡。该语支的语言起源于古印度-雅利安语(如公元前1500-600年的吠陀梵语),并经过中古印度-雅利安语的演化阶段(如普拉克里特语,意为“天然的”语言,一系列古印度俗语)【2】。其中印地-乌尔都语使用人口超过7亿,是仅次于汉语和英语的第三大语种;其后是使用人口约2.6亿的孟加拉语,以及约1亿的旁遮普语和马拉地语。值得一提的是,印度南部的达罗毗荼语系(包括泰米尔语、泰卢固语等),不属于印欧语系。
~
伊朗语支约有80多种语言,主要分布在伊朗、巴基斯坦、伊拉克、土耳其、高加索、塔吉克斯坦、中国新疆等地,包括波斯语、普什图语、库尔德语、俾路支语、奥塞梯语、塔吉克语等【3】。其中波斯语使用人口超过1亿,普什图语和库尔德语超过3000万,俾路支语超700万。
~
~
希腊语族:该语族主要分布在希腊大陆和邻近岛屿。历史上,和希腊语亲缘关系最近的可能是古马其顿语(今希腊北部,和现代马其顿语没有关联)和弗里吉亚语(今土耳其),但也有学者认为希腊语同亚美尼亚语族亲缘关系较近。
一般来说,希腊语族只包括希腊语一种语言。迈锡尼希腊语是目前已知最早的希腊文记录(前16-12世纪),采用线形文字B,是一种音节文字。至公元前9世纪晚期,开始出现最早的全音素文字——希腊字母,该字母体系后成为拉丁字母、西里尔字母、亚美尼亚字母等书写系统的基础。
~
(线形文字B)
曾经希腊语也有复杂的方言差异,但公元前5世纪起基于阿提卡-伊奥尼亚方言的共同希腊语(Koinē)出现,并在希腊化时代随亚历山大大帝征服而进一步带到了北非和中亚;同时,各地方言也逐渐消失,目前仅剩Tsakonia一种濒危方言。
意大利语族【4】: 该语族最早分布在亚平宁半岛,以拉丁语为代表,还包括奥斯坎语、翁布里亚语、法里斯克语、威尼斯语等语言。后来随着拉丁语的扩张,这些语言都已经消亡。
~
(注意上图中的伊特鲁里亚语/Etruscan不是印欧语)
在罗马帝国瓦解后,公元3-8世纪,各地拉丁语方言独立发展,最终形成了近代的罗曼语族(因为处于意大利语族之下,有时也称为 “罗曼语群” )。罗曼语通常分为三支:意大利语、罗马尼亚语、摩尔多瓦语以及达尔马提亚语(已消亡)等属于东支;法语、西班牙语、葡萄牙语、普罗旺斯语、加泰罗尼亚语、罗曼什语等属于西支;另外还有谱系相对独立的撒丁语。其中西班牙语的使用人口超过5亿,法语和葡萄牙语也均超2亿。
~
(东西语支的分界线是La Spezia-Rimini线)
凯尔特语族:该语族历史上曾分布于从安纳托利亚(小亚细亚)到大西洋沿岸的广阔地区,后来随罗马帝国扩张后势力范围逐渐缩小。
~
目前凯尔特语主要分布在不列颠群岛(爱尔兰、威尔士、苏格兰)和法国西北部(布列塔尼)的周边地区。一般认为凯尔特语族有两个分支:大陆凯尔特语和海岛凯尔特语,前者包括高卢语和凯尔特伊比利亚语,均已消亡;后者包括布立吞语组(威尔士语、布列塔尼语和康沃尔语)和盖尔语组(爱尔兰盖尔语、苏格兰盖尔语和马恩语)。其中康沃尔语和马恩语一度灭绝,但目前在当地社群中都得以复兴,甚至重新出现了母语者。
~
日耳曼语族: 该语族主要分布在欧洲西北部,包含北、西、东三个语支。北日耳曼语支的共同祖先是古诺尔斯语,其后代包括瑞典语、丹麦语、挪威语、冰岛语和法罗语(至于北欧的芬兰语,则属乌拉尔语系,与印欧语无关);西日耳曼语支包括古高地德语、古萨克森语(古低地德语)、古低地法兰克语(古荷兰语)、古弗里斯兰语和古英语,以及分别由这些古代语言演化而来的高地德语(其中标准德语基于若干种高地德语而形成)、低地德语(不是标准德语的方言,而是德国北部的一群独立语言)、荷兰语、弗里斯兰语和英语;东日耳曼语支包括哥特语、汪达尔语和勃艮第语等,均已消亡。日耳曼语族中的英语的母语者超过3亿,总使用者约有13亿;德语的母语者超过1亿。
~
波罗的-斯拉夫语族: 这两个语族主要分布在波罗的海、巴尔干半岛、中欧和东欧地区,因为关系较近,常常可统称为“波罗的-斯拉夫”。
波罗的语族包括东西两支,西波罗的语支包括已消亡的古普鲁士语(和德语无关,德意志人只是后来采用了“普鲁士”这一称呼);东波罗的语支包括立陶宛语、拉脱维亚语以及一些已经消亡的波罗的语。值得一提的是,波罗的海三国中的爱沙尼亚使用乌拉尔语系的爱沙尼亚语,不属于印欧语系。
~
斯拉夫语族包括:东语支,比如俄语、白俄罗斯语、乌克兰语等;西语支,比如波兰语、捷克语、斯洛伐克语、索布语、卡舒比语、西里西亚语等;南语支,包括最早有记录的斯拉夫语——古教会斯拉夫语,以及斯洛文尼亚语、塞尔维亚-克罗地亚诸语(在南斯拉夫解体后,成为了塞尔维亚语、克罗地亚语、波斯尼亚语和黑山语四种语言)、保加利亚语(在北马其顿独立后,当地方言成为了马其顿语)等。
~
亚美尼亚语族: 该语族仅亚美尼亚语一种语言,分布于今亚美尼亚、高加索和中东地区,历史上也分布于土耳其东部。现代亚美尼亚语的方言差异较大,标准亚美尼亚语基于东部方言。
~
(亚美尼亚字母)
由于亚美尼亚人长期生活在波斯文化圈内,伊朗语支对亚美尼亚语造成了强烈影响,以至于其一度被当作是印度-伊朗语族的成员,直至1877年才被确认为是独立语族。
阿尔巴尼亚语族: 该语族仅阿尔巴尼亚语一种语言,分布于今阿尔巴尼亚、塞尔维亚的科索沃、北马其顿西部、黑山南部、希腊西北部和意大利南部地区,包括北部的盖格方言(科索沃和北马其顿)和南部的托斯克方言,官方语言基于后者(而非首都地拉那所处的北部方言)。
阿尔巴尼亚语是最晚有书面记录的印欧语。 这一地区在历史上先后受罗马、奥斯曼等统治,吸收了大量拉丁语、土耳其语等词汇,这些外部影响导致其直至19世纪下半叶才被确定是印欧语。
~
吐火罗语族(已消亡): 该语族在公元6-8世纪分布于今中国新疆地区的塔里木盆地北部,包括吐火罗语A(古称“焉耆语”)和吐火罗语B(古称“龟兹语”)两种语言(另有一尚不确定的吐火罗语C),后随着使用者逐渐被突厥语部落同化,最终消亡。
~
~
(部分吐火罗字母)
现今世界上使用人口最多的20种语言中,有10种是印欧语,按数量依次为英语、印地-乌尔都语、西班牙语、孟加拉语、法语、俄语、葡萄牙语、德语、旁遮普语和马拉地语。印欧语系的英语和汉藏语系的汉语是目前世界上使用人数最多的两种语言。
注释:
【1】有学者认为无论是古埃及还是卢维语的hieroglyph都不适合译成“象形文字”,只是形态上比较具象,但本质上都是表音表意相结合的系统,和汉字同理,不单单对应汉字六书之一的“象形”,译为“意音文字”更合适。
【2】如今可分为七个语组:中部(以印度斯坦语/印地-乌尔都语为代表)、东部(孟加拉语、阿萨姆语、比哈尔语等)、北部(尼泊尔语等)、达尔德(克什米尔语等)、西北(旁遮普语、信德语等)、西部(古吉拉特语、罗姆语/吉普赛语、拉贾斯坦语等)、南部(马拉地语、孔卡尼语、僧伽罗语、迪维希语等)。
【3】可分为三组,其中文献记录最早的阿维斯塔语(已消亡)可独立构成一个分支;而波斯语、库尔德语、俾路支语等属于西组;普什图语、瓦罕语、雅格诺布语、色勒库尔语、奥塞梯语等属于东组。
【4】有学者译为“意大利亚语族”(Italic languages,和现代的“意大利语”Italian language相区分)。
参考来源:
Fortson, Benjamin W.(2010) Indo-European Language and Culture. John Wiley & Sons, Ltd.
-
Hittite cuneiform script and Hittite language
https://www.omniglot.com/writing/hittite.htm -
Luwian language and script
https://www.omniglot.com/writing/luwian.htm -
Linear B syllabary - the ancient script of Crete
https://www.omniglot.com/writing/linearb.htm -
Armenian language and alphabet
https://www.omniglot.com/writing/armenian.htm -
Tocharian language and alphabet
https://www.omniglot.com/writing/tocharian.htm
via:
-
SISU文研|世界语言知识图谱系列一:汉藏语系 发布者:档案馆、校史馆、世界语言博物馆 发布时间:2021-12-27
-
SISU文研|世界语言知识图谱系列二:印欧语系 发布者:档案馆、校史馆、世界语言博物馆 发布时间:2022-01-10