互联网时代,我们需要什么样的汉字?



二十多年前,汉字进入了计算机,二十多年后,尽管计算机硬件和软件技术得到了高速发展,但汉字字形的描述技术却依旧保留着最原始的轮廓和风格,依然是二十年前的字库文件系统,依然是我们最熟悉不过的“黑、宋、楷、仿”四个面孔。进入互联网时代,作为中文信息技术中最基本的信息表达元素——汉字,会发生怎样的改变?它面临哪些机遇?哪些挑战?等等,带着这些问题,我们走进了“CCF2013第三届文字与计算研讨会(2013 The Third CCFNational Symposium on Character and Computing,简称CCF-NSCC2013)”。

文字与计算研讨会是中国计算机学会中文信息技术专业委员会的一个有特色的学术年会,本届会议的主题围绕互联网时代的汉字字形信息处理技术来展开,从“个性化汉字字库的开发技术”、“互联网时代的汉字字形计算技术”、“汉字字形笔画的分解提取技术”、“汉字字形美观度和正确度的评判技术”、“基于字形特征描述的汉字动态生成技术”等五个方面内容进行了深入的研究和讨论。

一、            互联网时代,是汉字彰显个性化的时代

现代计算机技术和网络技术的发展为个性化的发展提供了宽广的空间和舞台。但汉字字形的个性化技术并没有得到发展。来自北京大学的肖建国教授在会上关于“个性化汉字字库制作技术”的一段讲话发(图1)人深思,“互联网出现之前,每个人都要提笔写信,经常要说,‘来信收到,见字如面’。可是进入互联网时代,写信不提笔了,用字都是‘黑、宋、楷、仿’了,再也没有人说‘见字如面了’。

1 肖建国教授第三届文字字形计算会议上作报告

互联网是信息和文化传播的载体。个性化汉字字形的开发技术,不仅是汉字信息处理技术的需要,更是我国汉字文化发展的需要,多年来,中文信息技术研究的主要内容以“信息”为主,而对于信息所包含的“文化”内涵挖掘不够。主要原因之一是使用现有的汉字字库开发技术,很难针对每一个人开发出具有鲜明的个性特征的汉字字形,因而在电子邮件、博客、博文中彰显个性的字形实现起来就非常困难。肖建国教授讲道:“汉字独特的文化和艺术特征是我们民族发展的瑰宝,互联网给汉字的发展带来了巨大的发展机遇,面向互联网的汉字字形开发技术需要我们去深入的研究”。

互联网技术的发展过程,给中文信息技术发展提供巨大机遇的远远不止于个性化汉字字形的开发。北京大学的赵东岩教授在大会报告“中文信息技术的机遇与挑战”中讲到,随着互联网和移动计算的发展,中文信息技术领域面临大规模、开放域、跨平台、多元异构内容的自然语言处理的新课题,相应的NLP研究方法需要不断创新与升级,以适应不断发展的中文信息技术的需要。

二、            互联网时代,是汉字字形技术需要变革的时代

现在是互联网时代,云计算已经进入了人们的生活,就在人们关心各类云平台和云服务的时候,未来汉字的云计算会是什么?云计算能否为汉字计算带来一场革命?围绕这些问题,来自华中科技大学的金海教授的“云计算的安全挑战和实践”报告(图2)让我们感受到了汉字信息处理在云计算时代的重大使命。

2 金海教授在第三届文字字形计算会议上作报告

云计算作为一种新型计算模式,代表了未来信息技术的发展趋势。然而,云计算的发展和普及面临着诸多挑战,其中安全问题首当其冲。金海教授在报告中对云计算安全问题进行了深入分析,指出解决云计算环境下的安全问题必须要解决“信任问题、访问控制问题、行为监控问题、隐私保护问题”等。围绕这些问题,金海教授还从云隔离、云可信执行环境、云监控、云容错、云数据安全、云网络防御等方面介绍了们们在这个领域的一些实践。

尽管金海教授在报告时一再强调自己的研究内容和汉字计算内容相距很远,但他的报告的确给我们指明了汉字计算在云计算中的重要意义,从而为我们指出了未来汉字计算研究的一个重要发展方向。

最近曝光的美国政府的“棱镜门事件”,让我们深感忧虑,美国国家安全局在全球进行超过61000个入侵电脑行动,其中数以百计目标针对中国内地和香港。美国情报机构入侵网络系统的主干部分,可以进入上千台电脑内部系统,但却不需要采取像黑客一样的方法。这再一次提醒我们,在互联网上一切认证体系遭到破坏后,我们信息保护的最后一道屏障——基于内容的互联网信息安全性的保护就显得尤为重要。

很早以前,为了解决不同的浏览器上对同一种字形的浏览问题,出现了络安全字体(web-safetypefaces)。但随着网络技术的发展,信息的保护屏障在一步步被击破后,信息最后的保护措施会是什么?当信息的重要程度涉及到国家重大安全利益的时候,我们是不是应该找到一种web-safe-font,让攻击着和被攻击着同归于尽,让信息彻底消失呢?可见,云时代的中文信息安全技术还需要做更深层次的研究。在这方面,来自中国科学院信息工程研究所的操晓春研究员、来自解放军信息工程大学的王清贤教授和来自天津大学的韩亚洪博士分别从图像处理、复杂网络和语义理解等三个方向分析了不同领域中特殊的字形和信息计算问题,让所有与会者耳目一新。

三、            互联网时代,汉字字形信息的表示进入笔画表示的时代

三十多年前,为了让汉字进行计算机,计算机学者沿用了西方字母的编码方式,采用一字一码的编码方式将汉字输入了计算机,但由于汉字数量巨大,到现在为止,汉字的编码问题还没有解决。为了彻底解决这一问题,“十一五”期间,国家通过原新闻出版总署,启动了浩大的“中华字库工程”项目,其目的就是要解决汉字字形的计算机表示问题。但是,汉字巨大的数量和字形整字编码特征,让汉字编码的难度很大、效率极低,实现起来一定会异常困难。因此汉字字形的部件和笔画分解技术就成为提高汉字设计效率的关键技术。解铃还须系铃人,当年为设计汉字而付出巨大心血的王选院士所在的实验室,北京大学计算机科学技术研究所的研究团队正在进行这一项目的研究,正如来自该研究团队的连宙辉和吕肖庆两位老师在报告中所讲到的,笔画分解技术的应用,除了可以通过笔画和部件的复用,来提高汉字字形的设计效率之外,还可以应用于汉字OCR识别、汉字缀合、字义识别、汉字重心计算、汉字美观度计算和互联网应用等多个领域。

四、            互联网时代,汉字字形进入多元审美时代

随着计算机技术的普及与推广,作为一种传统的艺术——中国书法距离我们渐行渐远已经是不争的事实。就在有人抱怨“毛笔已去,字墨渐远,钢笔也逐渐退隐”的时候,来自安阳师范学院文学院的郭怀玉教授在研讨会上关于“杂笔书艺的实践与设想”报告给我们计算机学者带来了另外一种书法字形的思考。郭教授所主张的杂笔书艺,指的是以各种各样的书写工具表现出的书法艺术。除了一般意义上的毛笔、钢笔等之外,还包括一切能够利用之而进行写字的工具,比如,随手抓取一块抹布即可写成空心字,废弃的葱叶、黄瓜把儿等也可蘸墨写字,一盆细沙也可撒成沙字,甚至用手指蘸墨也能成为“指书”(图3),真是“善书者不择纸笔,妙在心手,不在物也。”郭教授的报告让我们想起了互联网上的“涂鸦墙”,互联网上的“涂鸦墙”有很多,但能支持“涂鸦墙”的汉字字形的却只有标准的汉字字形库,如果仅仅停留在让涂鸦者的文字作品以标准字形或以图画的方式在互联网上存储和传播,哪么,计算机的汉字表达就永远会是一个缺憾。

3郭怀玉教授用葱叶蘸墨书写甲骨文

互联网技术的发展,需要我们去研究手写汉字的形式化表达技术,即使是学生的汉字书写,也需要我们去认真的研究。随着汉语走向世界,越来越多的外国人开始学习汉语,汉语教学的数字化,需要计算机能够象人一样能够判别汉字书写的正确度和美观度。在这方面,来自中科院苏州纳米技术研究所的董军研究员介绍了应用计算机进行书法创作过程中的书法模技术。北京语言大学的荀恩东教授及其研究团队和汉字书写质量的评测、汉字结构约束特征的抽取与评价、脱机手写汉字笔画还原等几个方面,在大会上进行了交流,也让我们再一次领略了汉字字形计算在不同领域中的应用典范。

五、            互联网时代,汉字字形进入机器书写的时代

让计算机能模拟人的感觉和思维书写汉字,一直是许多人梦寐以求的愿望,但这一愿望却被西方人发明的打印机给毁灭了,打印好像要永远替代书写,从而使几千年的汉字书法中行云流水的书写过程在我们手指间顷刻消失,“提笔忘字”、“不会写字”成了一个普遍的社会现象。显然,信息社会人们不能为了写字扔掉计算机,相反,互联网时代,我们应该使用计算机让人们写的字更好、更美,更有个性化。要实现这一目标,必须要研究汉字的机器书写问题。

机器打字和机器写字有着明显的区别。机器(打印机)打字,打出来的字一次成型,突出的是速度和效率,是信息化、工业化追求的目标,是结果的表达。而机器(书写机)书写,写出来的字行若流云,突出的是文化和心境,是信息个性化追求的目标,是过程的表达。但令人遗憾的是,到目前为止,我们还没有见到过真正意义上的“书写机”及其相关成果。

机器书写和字形生成也是两个完全不同的概念,多年来,国内外很多学者都在进行汉字字形的自动生成研究,在传统的汉字字形轮廓描述技术之外,开发出了很多和汉字自动生成有关的汉字字形描述技术,但这些描述技术并没有对汉字的生成过程进行深入研究,因此就很难突出汉字独特的个性特征、文化特征,更不能体现汉字的书写和书法特征。

问渠那得清如许,谓有源头活水来。数字化甲骨文工程技术研究中心的栗青生教授在研讨会上介绍了他们正在研究的一种将汉字书写过程作为重要特征加以描述的一种新的字形描述技术——汉字字形的动态描述语言DynamicChinese Character Description language 简称DCDL)。研讨会上,栗青生教授分析了人的手写和机器书写的共同特征——位置特征,介绍了“特征加权”的笔画建模方法,并以点笔画为例介绍了点的机器书写和点笔画的生成过程(如图45所示),同时他还介绍了这一技术的应用对未来互联网汉字信息表示方式的变革的意义和影响。

4位置特征点生成汉字点笔画的生成过程

  

5不同的点笔画生成示例

 

DCDL不仅是适合汉字机器书写的汉字描述语言,而且还是研究web-safe-font的一个重要工具。由于使用了动态的汉字生成技术,通过DCDL发送的信息可以通过网络实时控制,生成各类字形(包括错字字形),例如,同样是从位置A运动到位置B,还可以通过增加权向量的方式生成一个竖笔画(如图6所示)。由于是动态生成的汉字,必要时候,它可以在受到攻击时进行不同的变换来生成不同的“迷惑”信息,甚至与攻击着同归于尽,让信息彻底消失,因此是一种真正的web-safe-font。可以预见,在中文信息安全领域,从汉字最原始的编码和描述技术入手研究基于内容的汉字信息的安全策略将会成为中文信息安全研究的一个重要研究内容和方向。

6位置特征点生成竖笔画的生成过程

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SQLAlchemy 是一个 SQL 工具包和对象关系映射(ORM)库,用于 Python 编程语言。它提供了一个高级的 SQL 工具和对象关系映射工具,允许开发者以 Python 类和对象的形式操作数据库,而无需编写大量的 SQL 语句。SQLAlchemy 建立在 DBAPI 之上,支持多种数据库后端,如 SQLite, MySQL, PostgreSQL 等。 SQLAlchemy 的核心功能: 对象关系映射(ORM): SQLAlchemy 允许开发者使用 Python 类来表示数据库表,使用类的实例表示表中的行。 开发者可以定义类之间的关系(如一对多、多对多),SQLAlchemy 会自动处理这些关系在数据库中的映射。 通过 ORM,开发者可以像操作 Python 对象一样操作数据库,这大大简化了数据库操作的复杂性。 表达式语言: SQLAlchemy 提供了一个丰富的 SQL 表达式语言,允许开发者以 Python 表达式的方式编写复杂的 SQL 查询。 表达式语言提供了对 SQL 语句的灵活控制,同时保持了代码的可读性和可维护性。 数据库引擎和连接池: SQLAlchemy 支持多种数据库后端,并且为每种后端提供了对应的数据库引擎。 它还提供了连接池管理功能,以优化数据库连接的创建、使用和释放。 会话管理: SQLAlchemy 使用会话(Session)来管理对象的持久化状态。 会话提供了一个工作单元(unit of work)和身份映射(identity map)的概念,使得对象的状态管理和查询更加高效。 事件系统: SQLAlchemy 提供了一个事件系统,允许开发者在 ORM 的各个生命周期阶段插入自定义的钩子函数。 这使得开发者可以在对象加载、修改、删除等操作时执行额外的逻辑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值