现代汉语的两种成分
周锡令
2005.12.21
周锡令
2005.12.21
声明
• 本人没有接受过语言学的训练
• 如果您听了以下内容,觉得是胡说八道,浪费了您的时间,希望得到您的原谅
• 先听一下两位专家的说法:
徐通锵
先生认为:
汉语中原本没有Sentence的概念
汉语中原本没有Sentence的概念
• 北京大学徐通锵先生在他写的文章:《“字”和汉语语义句法的生成机制》中说:
• 汉语只有一个基本结构单位,这就是字,不像印欧语那样有词和句子两个基本结构单位。……印欧语的两种基本结构单位(词和句子)在汉语中都不存在”“
汉语中原本没有Sentence的概念
• 在西方语言中,“句子(sentence)”被认为是“最大的语法结构单位”,它们不会“因为语法结构关系而被包含在任何更大的语言形式里”。而且总是尽量要求“主、谓、宾”俱全。即使本来没有必要使用主语的地方,也要特意加进一个“It”,例如,在汉语里可以说:“下雨了.”,在英语里一定要说成:“It rains.”
• 反之,在传统的汉语里,“句”也好,“读”也好,都只不过表明了语气或者语调上的“停顿之处”。在引入标点符号以后,其形式上的特征就是使用一连串的逗号“,”来标志这些“停顿之处”。
汉语“句”的特点
• 汉语“句”概念的特点是它的开放性和模糊性。句子是汉字的有规则的排列,但是“排”到什么时候或什么地方才算一个句子,没有一个明确的标准。说话时前后凡是能作自然的停顿,都有可能被看成为一个句子。
汉语“句”的特点(续)
• 一个句子可以没有"主语”或"谓语" 也可以出现若干个“主语”和“谓语”。用印欧语句子中的“主-谓”或“主-谓-宾”的标准来衡量,汉语语篇中符合这种标准的句子是很少的,绝大部分是缺“胳膊”缺“腿”的句子和所谓“连谓句” 。特别是其中的“连谓句”,差不多占有一半的比重;而且缺的“胳膊”成“腿”是不能补的,不然就不成其为汉语,所以这种“缺”与一般所说的“省略”有原则的区别的。
例
• 却说张飞饮了数杯闷酒,(张飞)乘马从馆驿前过,(张飞)见五六十个老人,(这些老人)皆在门前痛哭。飞问其故。众老人答曰:“督邮逼勒县吏,欲害刘公;我等皆来苦告,(我等)不得放入,(我等)反遭把门人赶打!”
例(续)
• 张飞大怒,(张飞)睁圆环眼,(张飞)咬碎钢牙,(张飞)滚鞍下马,(张飞)径入馆驿,把门人那里阻拦(张飞)得住,(张飞)直奔后堂,(张飞)见督邮正坐厅上,(张飞)将县吏绑倒在地。
• 飞大喝:“害民贼!认得我吗?”督邮未及开言,早被张飞揪住头发,(张飞将督邮)扯出馆驿,直到县前马桩上缚住;(张飞)攀下柳条,(张飞)去督邮两腿上着力鞭打,(张飞)一连打折柳条十数枝。
北京大学英语系的姜望琪在
《汉语的“句子”与英语的sentence》一文中也表达了类似的观点
《汉语的“句子”与英语的sentence》一文中也表达了类似的观点
• 他说:汉语中的“句”(或“读”)不是结构单位、或形式单位,也就是说,不是西方意义上的sentence。
• 汉语的很多句子没有主语。
• 主语并非中国语法所需求,故凡主语显然可知的时候,以不用为常” ,“让谓语单独地构成一个句子”“是中西语法大不相同的一点”
• 汉语的“句子”不等于英语的sentence。
我觉得:英语中的Sentence
是
为描述“事件”而设计的
• “主、谓、宾”的结构意味着对一次“事件”的描述
• “谓”-作用于“宾”的某种动作
• “主”-发起这一动作的主体
• 于是就有了“中心动词”的概念
• 写文章就是“一个事件,一个事件地叙述”
但是在叙述故事的时候,也可以“
一个镜头,一个镜头”地讲
传统汉语似乎就是
习惯于“
一个镜头,一个镜头”地叙述故事
• “见渔人,乃大惊;问所从来,具答之。便要还家,设酒杀鸡作食。 ”
方成的《序》
• 常看漫画的人都能看出报刊上的漫画和其他绘画不同,也看得出这种画最明显的艺术特性是:一、很有趣;二、近乎语言,像说话一样,一眼就看出它“说”的是什么意思。这就是有语言功能,不但有趣,还会挖苦,嘲笑。
从文言文翻译成现代汉语,
只是字眼的更换,结构基本不变
• 见渔人,乃大惊;问所从来,具答之。便要还家,设酒杀鸡作食。 ”“
• 看见渔人,十分惊奇。问从哪里来?(他)一一作了回答。就邀请去家里做客,又摆酒又杀鸡来招待。
以下几点是本人的直觉
1
、中国人和西方人说话时
心理状态不同
• 西方人在说话时是以“事件”为单位,力图“一句话说明一个事件”。于是每句话里都有事件的发起者(主语、施主),动作(中心动词),和动作作用的对象(宾语、受主)。
• 然而中国人说话是以自己的“内心感受”为单位,就好像拍电影一样,一个场景一个场景地叙述。有时一个镜头里可以看到人物和他的动作,有时一个镜头里只有风景,里面虽然没有人物,但是你清楚地感觉到画外的他的存在。
2、没有“句子”
的明确概念,
讲究整篇文章的“起承转合”
• 传统上中国人写文章的时候,没有什么“句子”的概念,而是着力于整个“篇章”的构建,讲究文章的“起承转合”;所以我们阅读《古文观止》中的文章的时候,常常感觉到好像看一个人在打太极拳,好比“幽咽流泉水下滩”,连绵不绝,较少有“一句一句”阅读下来的感觉。
3、反作用
• 印欧语系因此而为句子发展和提供了比较丰富的内部构造手段,因此即使所要叙述的事物内部关系比较复杂,也允许把它们纳入一个大型句子中;
• 汉语则相反,因此写作者习惯于使用短的“句段”,像“九节鞭”一样,以一环扣一环的方式生发开去。
文学作品中的例子
• 我家的后面有一个很大的园。
• (这个园)相传叫作百草园。
• (它)现在是早已并屋子一起卖给朱文公的子孙了。
• (我和这个园)最末次的相见(离开现在)也已经隔了七八年。
• (百草园)中似乎只有一些野草;
• 但那时(的百草园)却是我的乐园。
鲁迅:《朝花夕拾》-“长妈妈”
• 一到夏天,睡觉时她又伸开两脚两手,(她)在床中间摆成一个“大”字,(她)挤得我没有余地翻身,(我)久睡在一角的席子上,(席子)又已经烤得那么热。推她呢,(她)不动;(我)叫她呢,(她)也不闻。
口语中的例子
• 平常我们在口语中也有这种说法,比如:
• “我看见一位老先生走过来,老态龙钟,步履蹒跚。”
• 要是换成印欧语的习惯说法,就要说成:
• “我看见一位老态龙钟、步履蹒跚的老先生走过来。”
不敢苟同
• 不过,对于徐先生提出的:
既然汉语是“单轨制,……因而没有必要……进行名、动、形的词类划分,也没有必要死守“主语-谓语”这样的结构框架”,所以“汉语双轨制的文法研究格局就应该毫不犹豫地放弃。”
这一观点却不敢苟同。
不能忽视II型汉语的存在和发展
• 由于印欧语文艺作品、科技资料的长期大量引入和流传,在汉语中符合“主-谓”或“主-谓-宾”的标准的句子成分也越来越多,尤其是在比较正式的文件,报纸社论和科技论文中已经成为主流。换句话说,现代汉语已经是基于传统汉的“I型汉语成分”和由于受到外来印欧语中文法现象的影响而生成的“II型汉语成分”两股河流的汇合。
• 型汉语的语句的心理结构
链I
链I
• 型汉语的句子的心理结构
树II
树II
NLP面临的问题
• 无论是“句法树分析”,还是“作用效应链”,都是瞄准 sentence 的。这对于以 sentence 为中心概念的 II 型汉语来说当然是很合适的。
• 但是对于“连绵不绝”、太极拳似的I 型汉语应该怎么办呢,似乎还少有讨论。
三种处理方法
1、用“添加所缺省的字眼”
的办法
将I型汉语转换成II型汉语。
将I型汉语转换成II型汉语。
• 中央电视台的访谈节目中在打出“字幕”时,常常要利用(……)来补足被采访者的话语中被略去的字眼,就是为了增加文字的可读性。在某种程度上,CCTV是在作从I型汉语到II型汉语的“翻译”工作。
补上缺掉的“胳膊”和“腿”
• 我看见一位老先生走过来。
• (老先生)老态龙钟。
• (老先生)步履蹒跚。
• 三个句节变成三个Sentences.
• 它们共享同一主语
但是“
多个句子共享同一主语”
的现象并不总是成立
的现象并不总是成立
• (1)张三关切地看着李四,神情慈祥,满怀同情和关切。(张三,张三,张三)
• (2)张三看见一位姑娘,神情悲哀,沉默无语,很想上前去安慰她一番。(张三,姑娘,姑娘,张三)
• (3)在商店里看见一盆花,好看极了,很想买下来,又担心钱不够。(我、花、我、我)
补上缺省的字眼
计算机会觉得很困难
计算机会觉得很困难
• 传统汉语的“凝练”要求听话的人根据常识通过猜测来补充所省略的字眼。
• 这一点要求相当程度的“知识”以及“运用知识”的能力。
• 我觉得这正是计算机处理自然语言的重大难点所在。
2、换一个观点
• 对于“粗糙翻译”的目的,为什么不可以不去触动汉语原来的结构,而非要拘泥于“主、谓、宾”的格式
• 既然中国人可以看懂“蒙太奇”,能够从一系列“场景”中领会出故事情节,外国人一般也能(注)。计算机就不要越俎代庖、多此一举
• (注)除了存在文化差异的情况以外
例子
• 枯藤,老树,昏鸦
• 小桥,流水,人家
• 古道,西风,瘦马
• 夕阳西下
• 断肠人在天涯
3、避开 I 型汉语
• 排除文学作品这类体裁的文章
• 相对而言,I型汉语较为凝练,II型汉语较为精密。前者在文学领域中较为常见,而后者在科技文章、新闻报道中使用较多。
• 但是在科技文章、新闻报道中也很可能有 I型汉语出现。
NLP的“技术边界”问题值得反思
• 自然语言的处理离不开知识和知识的运用。而“知识”是没有边界的。因此,自然语言处理工作者常常感到自己面临无穷大的问题。
• 于是,NLP工程项目和其他领域(造一座桥梁,建一个水电站……)相比,有一个很大的特点,就是“常常没有明确的技术边界”。
NLP的“技术边界”问题值得反思(续)
• 虽然你可以在理论上探讨“无穷大”一类的问题,但是任何工程项目的可用资源总是有限的。
• 即便是“人”,即便是对自己的母语,他所能够理解的范围也是有限的。
• 确定技术边界的目的当然是把计算机感到的难点划在边界之外。
• 可以从不同的视角来考虑技术边界的划分问题。
比较模糊的说法
• (排除)声明处理的对象不包含“文学作品”
• (列举)声明只打算处理某一些领域的文字材料:新闻、产品规格说明、……
从理解的层次来划线
• 水平:每一个字都认识,但是不知道是什么意思。OCR
• 分词水平:知道哪一些字可以组合成一个“词”,但是仍然不知道句子的整体结构。
理解的层次(续)
• 结构分析水平:知道了句子的结构,但是仍然不理解整个句子或者其中某一部分的语义。
• 例:(小学数学习题)张师傅每月工资1650元。按照国家规定,超过800元的部分要缴所得税。问:张师傅交所得税的所得额是多少?
• 字面理解水平:知道了句子的表面的含义,但是仍然不理解整个句子的深层或者隐含的语义。
• 例:(看见对方闯祸)您可真行啊!
• ……………………
受限 vs 拒绝补缺
• 受限”的着眼点:“汉语结构过于自由、过于多样化”“
• 换一个角度观察,也许结论是:汉语好比一个“九(多)节鞭”,其中每一“节”的结构远比西方语言简单
• 而实际的困难在于汉语习惯于省略某些成分(尤其是主语)。而这些省略成分的补足需要知识的运用。
结语
• 汉语本有自己的传统
• 但在近百年以来又从外界吸收了新的文法现象。
• 因此仔细辨认,可以发现现代汉语中两种流派汇合的现象;你把它简称为I型汉语和II型汉语。
• 型汉语的结构从印欧语引进,一个句子可以对应一颗树。II
• 反之,I型汉语(传统汉语)是我们的祖传,结构上一环套一环,绵绵不绝,好比电影中的“蒙太奇”。