阿里的“扫地僧”,2年“抄”了20万页古籍

阿里达摩院与四川大学合作,利用AI技术将散失海外的20万页古籍数字化,帮助古籍回归。项目面临古籍文字类别庞大、版式复杂、保存状况各异的挑战,通过聚类数据生产识别和主动学习数据生产识别等机器学习方法,实现高准确率的古籍识别。这一工作对于国家文化传承、学术研究和公众接触传统文化具有重要意义。
摘要由CSDN通过智能技术生成
金磊 贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI

阿里达摩院,一个正儿八经搞AI的地方。

但偏偏“扫地僧”们干起了文绉绉的工作:

研究古籍。

他们将流散海外的珍贵古籍善本以数字化的形式请回故土。

第一批达20万页

宋百家诗存

当理科生干起了专业文科生的工作,会擦出怎样的火花?

古籍为何“出海”,又如何“回来”?

关于这个故事,很精彩,也很有意义

古籍为何外流?

1860年(清咸丰10年),五千年文明古国此刻风雨飘摇。

北有英法联军捣毁圆明园,逼迫中国签下《天津条约》、《北京条约》。

南有太平军进入杭州,

藏有《四库全书》的“南三阁”之一杭州文澜阁,次年毁于战乱。

阁圮而书散,无数经典,从此淹没在历史中。

文澜阁遭遇“灭顶之灾”后,杭州藏书家丁申、丁丙兄弟在逃难途中无意间发现文澜阁《四库全书》残编。

相传,丁式兄弟买包子时,偶尔发现包食物的纸,“皆四库书也”,大惊。

于是他们开始紧急救书,上下打点,四处寻访。

经历这轮战乱,文澜阁本《四库全书》的四分之一被丁氏兄弟抢救,四分之三消散飘零,不知所踪。

直到将近100年后的1950年代,清代曹庭栋辑纂的《宋百家诗存》 (卷七),出现在美国加州大学伯克利分校东亚图书馆。

而这本《宋百家诗存》,正是丢失的文澜阁本《四库全书》之一。

目前有线索可查的,只能明确伯克利东亚图书馆从日本三井文库购得这批古书。

伯克利东亚图书馆

这类古书文物到底经历了怎样的颠簸流离,如今已不可考。

评论 50
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值