国际信息研究学会专家杜彪:汉字识别是如何走上机器学习领域巅峰的?

商业策划

活动安排

10月11日,“数据星河”系列活动——“人工智能在汉字上的应用”主题沙龙如期举行。活动特邀国际信息研究学会中国分会教育信息化专业委员会副秘书长、人工智能专业委员会委员杜彪,一道厘清AI+汉字发展历程,分享市场未来洞见。

640?wx_fmt=jpeg

此次最新一期的数据星河沙龙,是在北京科学技术开发交流中心、中国民营科技实业家协会的指导下,由九次方大数据、兰亭科技与ABC科创联盟主办,创业公社及中关村技术经理人协会联合主办,并由大数据周刊作为独家媒体支持、活动行独家报名平台。沙龙吸引了来自人工智能及相关领域的三十余位嘉宾到场,一起学习和交流行业前沿技术与民族自主科技的碰撞,以此提供深度的思考与有益的借鉴。

640?wx_fmt=jpeg

在场嘉宾普遍认同,随着技术的不断进步,人工智能正在成为国际学术的新热点、新焦点以及产业合作的新机遇,然而真正可谓走向成熟、具备落地应用前景条件的领域仍然凤毛麟角。在此之中,汉字识别正是机器学习在国内最早的成功商业应用,诞生出了一批早期从事模式识别技术和产品应用的成功企业。

640?wx_fmt=jpeg

杜彪老师

主讲嘉宾杜彪老师在沙龙上以“汉字和AI技术”为主题进行了分享。作为“国家高技术研究发展计划”(简称863计划)的参与者,杜彪从利用笔段为基元的联机手写汉字识别技术起步,踏上了技术的“长征”。在研发过程中,他认为,攻克难点主要在于手写字体的随意性,脱离了楷书的框架,使笔划种类大大增加,抽取难度也成倍增加。

在第一代人工神经网络技术的应用下,出现了因层数增加而严重依赖数据标注,过拟合、低效率的缺陷。随着技术不断迭代,杜彪表示,发展至今,手写识别已经进步的非常成熟,也是在第一代机器学习浪潮中为数不多达到了商业应用水平,也为市场所接受的技术。

面对未来技术席卷的挑战与机遇,杜彪认为,首先的方向是关于利用深度神经网络做汉字书写评测算法,以人工智能技术构建关于书写结构、笔顺的评价体系,未来还将发展至艺术性的评测,目前,这一技术在对外汉语教育中已经应用起来。

其次,杜彪以火爆一时的照片编辑APP prisma为例,在卷积神经网络中,内容和风格是可分的,人工调整以重塑照片,实现个性化升级。对应到汉字领域,可以风格迁移技术实现汉字字体文件的自动生成,研发个性化字库制作,潜在市场也颇为广阔。

640?wx_fmt=jpeg

浸淫人工智能+汉字领域多年,作为权威行业专家,杜彪与在场嘉宾就人工智能在盈利道路上如何进一步的探索、手写识别技术如何扩展全球市场、行业的创新商业模式与细分发展方向等问题,进行了进一步的交流:

Q:“人工智能可盈利化不断探索,未来如何更好实现?”

A:“国内的人工智能,总体上多是靠大量的人工标注实现,比较低效,耗费成本,的确不利于实现可持续发展。目前国际上有一些论点认为,应当用有限数量的数据去做训练,其理论性还需要验证。

就目前比较火爆的领域来看,如机器视觉、语音、数据分析等,有个共同点,均是建立在海外的框架基础上。而对于汉字识别来说,因其没有国外的例子可参考,反而具备了市场竞争较小的优势,有时选择人少的赛道也是一种办法。”

Q:“汉字手写识别技术在全球文化、特别是东亚文化下应用市场前景如何?”

A:“在所有主流文字中,只有中国,以及日本的部分文字呈现非字母的形式。市场是具备的,未来技术将延伸到实现判别字体的艺术性,至少对于中日来讲,市场还是存在。”

Q:“做档案管理,以前一些手写的老文件需要批量输入、批量识别,对此行业是否有标准化的方案处理?”

A:“手写识别是OCR一贯以来的难题,包括档案、医疗记录等不允许出现错误的文件,责任过于重大,人工智能识别技术在此应当作为辅助功能。但对于传统资料的消噪是一个可期待的技术方向,也就是如何剔除批注等不属于正文的部分,在实现上还有一定的发展空间。”

Q:“离线识别与在线识别在效果上的区别在哪里?”

A:“离线的手写识别率一般比在线的低,在线输入笔段有抬笔与落笔的信息帮助识别,离线则找不出顺序,可以说,离线识别的主要应用在印刷体方面。”

其后,在自由交流环节中,与会嘉宾更是围绕人工智能生态前景与核心竞争力重构的机会思考,展开了数轮的深入交流,并以问卷形式展开头脑风暴,促进活动圈层未来可持续沟通。沙龙特拉起“数据星河”活动圈子微信群,将聚合起行业更多大咖智慧火花,洞察新技术商业的本质和规律。

640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png

“数据星河”系列活动每月如期而至,意在通过不断的前沿智慧分享、资源整合,携手越来越多的伙伴站在大数据与人工智能新时代的风口,把握机遇,走向未来。

640?wx_fmt=gif

更多活动信息

浏览大数据周刊首页导航栏

长按扫码关注我们

640?wx_fmt=jpeg
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值