者按:我们多次前往北大计算语言学研究所和 俞士汶 教授进行了分词方面的技术交流, 俞 教授的谈话让我们受益匪浅。我们特意对 俞 教授进行了访谈,希望读到此文的搜索爱好者,也能和我们一起分享分词知识、探讨搜索未来。
访谈正文如下:
1、与英语等欧洲语言相比,中文在信息化处理上有很多不同的障碍,如:输入、分词等。请简要介绍一下中文语言处理的研究领域和存在的挑战?
中文信息处理应该大致划分为汉字信息处理和汉语信息处理两个显然不同的但相互又有联系的层次。在文字信息处理的层次上,由于汉字是大字符集,与英语等欧洲语言采用的几十个字母相比,发展进程中确实遭遇过很多不同的障碍,不过现在大体上已经克服了,汉字信息处理技术已经实用化、产品化。
在语言信息处理的层次上,特别是到了内容处理或语义理解的阶段,人类语言共性的影响远远超出了它们各自的特性。以词语切分(segmentation,即问题中的“分词”)而言,并不能说它是汉语的特别任务,其他语言(包括英语)也有相似的课题。 有实践经验的人又普遍感到(书面)汉语信息处理确实存在一些特别的困难。原因主要在于书面汉语的以下两个重要特点:
(1)不同的语言单位(以汉字表示的语素、词、短语、句子乃至更大的单位)之间界限不清晰;
(2)中文的语言要素,特别是词,在运用时缺乏指示其功能或语义的形态变化。
认识到汉语信息处理的困难,汉语信息处理发展的方向也就明确了。既要吸收国际上其他语言的先进理论、技术和经验,也要充分重视汉语的特点。研究领域要做的工作很多,最具基础性的工作应该是建设服务于汉语信息处理的知识库。
2、作为中文语言处理的独特内容,中文分词在国内外研究和应用领域都有什么最新进展? 书面汉语的词语切分是汉语信息处理的第一道关口,姑且不论它是不是独特内容。或许有的理论或系统声称没有“分词”这个步骤,但从语句中辨识出可以作为操作单位的或语言知识库之登录项(entry)的语言单位(不妨以“词”命名),总是无可回避的。 完全正确的切分取决于对文本理解的深度或者说需要足够的语境信息,“白天鹅在湖里游泳”即是一例。
目前自然语言理解技术未能取得突破,也不能期求词语切分百分之百地正确。不同的应用对切分的精度有不同的要求,不同的软件有不同的适用范围。 作为汉语词语切分研究领域的最近进展,有几件事值得一谈。
一是清华大学 孙茂松 教授主持制订的大型分词词表(可能尚未出版);
二是中科院计算所 刘群 博士等人将自主开发的切分软件放在网上,可以自由下载;
三是中国教育部语言文字应用研究所开发的平衡语料库和北大计算语言学研究所开发的《人民日报》基本加工语料库,规模都有数千万字。
另外,台湾中研院 黄居仁 教授加工了有11亿字的Chinese Gigaword Corpus,不过它是全自动进行的,而北大与语用所的加工结果都经过了人工校对。 样本语料库的意义不可低估。 刘群 博士的软件就是以半年《人民日报》基本加工语料库作为其统计算法的训练语料而开发出来的。北大计算语言所放在网上的1个月的《人民日报》基本加工语料库,下载人次已超过9400。俞士汶等人制订的语料库加工规范(2001年版和2003版)分别发表在《中文信息学报》(2003年第5,6期)和新加坡《汉语语言和计算学报》(2003年第2期)上,影响甚广。
技术的普及和基础资源的整备或许孕育了理论和技术的创新。