用计算机研究唐诗,“把唐诗输入计算机”:钱锺书与中国古典数字工程

文章讲述了研究小组利用计算机技术对《全唐诗》进行大规模整理,实现了快速检索与准确性,展示了人工智能在古典文学研究中的突破。他们不仅完成了唐诗索引,还开发了‘全唐诗索引生成系统’,提升人机协作效率,项目荣获国家科技进步奖。强调了计算机虽强大,但在理解和创新方面仍需人类智慧。

“计算机可以帮助人脑,

但还不能代替人脑”

如果说《论语检索》还只是利用计算机运算的快捷,算是牛刀小试的话,钱先生给研究小组布置的第二项任务,便瞄准了浩瀚如海的《全唐诗》了。唐代可谓中国古代的诗歌海洋,吟诗甚至可以称作唐人的思维和竞争方式,不但以诗取士,以诗干谒,杜牧甚至有“千首诗轻万户侯”之句,而且深入日常生活,饮宴酬酢固不能免,新婚时例有“催妆诗”,连温柔敦促女方撤下遮住面孔的扇子,新郎也要赋“却扇诗”。所以唐代诗作既多,作者分布又极广,从来没有清理裒集。乾隆后期董诰等借《四库全书》编辑,奉诏编纂《全唐诗》,可谓集中国家力量之大成,但是否完全,亦无定论。

研究小组着手这项工作后,得出了一系列重要成果。他们在妥善地解决了全汉字库以后,花了近三年的时间,输入了27册《全唐诗》的全部正文、异文和注文,并经11次校对。目前在大量程序软件的控制下,能在2分钟以内解决全部唐诗的检索问题,达到了准确和高速的目标。比如,他们通过简单的运算,便可准确地判定全唐诗共有53035首,作者3276名,订正了传统的四万多首和两千多人等等说法,为彻底打开中国古典文献研究的数量化大门开辟了全新的途径。他在给当时中国社科院新闻发言人杨润时的信中写道:

“作为一个对《全唐诗》有兴趣的人,我经常感到寻检词句的困难,对于这个成果提供的绝大便利,更有由衷的欣悦。这是人工知能在中国古典文学研究上的重要贡献。”

当初的研究小组此时已经在钱先生的倡议推动下,扩大为中国社科院的计算器室。他们并不满足于唐诗索引的完成,为了解决“计算机里的唐诗如何帮助人脑里的唐诗”的问题,他们又用三个月时间研制出了“全唐诗索引生成系统”,包括索引编制、数据统计、印刷底版生成三大部分,成功地解决了古典文献索引的一体化编辑和排版问题,并为使用者提供了全面、准确数字化成果。如以李贺为例,董诰编纂的《全唐诗》中,属名李贺的诗共有183首,其中1次重出的47首,2次重出的1首。所谓重出,就是在同一作者或不同作者名下,有两首以上相同或基本相同的诗。在这个过程中,关键在于原数据的取法和重出参数的设定。他们采取了三个连续汉字作为源数据,以诗句周边性的排列组合,句尾韵字及平仄字的位置等因素确定重出参数,但主要根据是汉字本身这个参数。通过计算机的检索和分析,产生结果足以匡正前人沿袭已久的讹误。

中外学人对于这套当时海内外最庞大的古典文学数据库,给予了高度评价,这个项目也因此获得了1990年国家科技进步奖。计算机可以缩小查找范围,提高比勘速度,对复杂的海量查找也轻松胜任,甚至绝大多数能直接对是和非加以判定。计算机可以帮助人脑,但还不能代替人脑。像意境雷同的查检,尽管有汉字象形、会意、形声的优越性,但计算机的距离尚遥远。我想,作为一个认真使用计算机对中国古典进行研究的人,既不会为计算机的发展和进步而昏昏,认定计算机能代替人脑,有了计算机就有了一切;更不会为计算机的难于驾驭而茫茫,放弃实实在在、长期艰苦的努力和奋斗。

1,2,3,4,5,6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值