【赛事推荐】ICDAR2023国际学术竞赛,六大OCR未解难题等你来挑战!

关注公众号,发现CV技术之美

c8a4d4c4684d95f12854c3dcee83435c.png

ICDAR(International Conference on Document Analysis and Recognition)是全球文档图像分析识别领域公认的权威学术会议,从1991年起每两年召开一次,今年是第17届,将于2023年9月20-25日在美国加利福尼亚市举行。

自2003 年ICDAR 设立“Robust Reading Competitions”系列学术竞赛以来,该竞赛就成了评测和检验自然场景/网络图片文本自动提取与智能识别最新技术研究进展的重要国际赛事及标准,竞赛中的诸多方法对光学字符识别(Optical Character Recognition,OCR)技术发展具有强大推动力。

场景文字识别具有广泛应用场景,例如:拍照翻译、图像检索、街景地标识别、室外场景理解等。但由于自然场景图像中的文字字体多样、排列不规范、形状及色彩多变、背景复杂、图像对文字的干扰大等等因素,使得场景文字检测与识别仍然是计算机视觉及文档图像分析与识别领域中一个极具挑战的研究热点问题。

高技术难度、高实际应用性,也使该系列竞赛受到科研院校、科技公司的广泛关注,至今已有119个国家的7821多支队伍参与。

赛事1:ICDAR 2023结构化信息抽取大赛(ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich Document Images) 

主要组织者:Xiang Bai(华中科技大学),Jingdong Wang(百度),Errui Ding(百度),Dimosthenis Karatzas(Universitat Autónoma de Barcelona),Min Zhang(哈尔滨工业大学),Wanxiang Che(哈尔滨工业大学),Shuicheng Yan(Sea AI Lab),Jiebo Luo(University of Rochester),Cheng-Lin Liu(中科院自动化所)

文档图像的信息化抽取具有重要的商用价值和广泛的应用前景。然而,过去的方法大多采用多阶段策略,测试评估使用的数据集的规模和类型有限。该比赛的数据由华中科技大学与百度共同提供,包含至今最丰富的应用场景和语义属性。本赛事包含HUST-CELL和BAIDU-FEST两大赛道,分别支撑复杂文档的结构化信息抽取和零样本\小样本条件下的结构化信息抽取。 

比赛将于2023年1月10日开赛,详情可参考比赛官网:

https://rrc.cvc.uab.es/?ch=21

adf874790298e810150f6d2dee013bfd.png

图1 赛事1 ICDAR2023结构化信息抽取大赛样例

赛事2:ICDAR 2023面向密集小文本场景的视频文字识别竞赛(ICDAR 2023 Video Text Reading Competition for Dense and Small Text)

组织者:Weijia Wu(浙大),Yudong Zhao(中科院大学),Zhuang Li(快手),Jiahong Li(快手),Mike Zheng Shou(NUS),Umapada Pal(Indian Statistical Institute),Dimosthenis Karatzas(Universitat Autónoma de Barcelona),Xiang Bai(华中科技大学)

随着视频技术和应用的快速发展,视频分析领域对于OCR的需求越来越大,例如视频检索,视频导航,自动假设等。不同于此前比赛关注常规文本的检测与识别,本次ICDAR 2023-DSText国际学术竞赛将聚焦稠密和小目标的视频文字检测与识别这一极具挑战的问题。

比赛设置如下两个任务:1)视频文本跟踪;2)端到端视频文本识别。

比赛将于2023年2月15日开赛,官网:

https://rrc.cvc.uab.es/?ch=22&com=introduction

4a18010d075265f503a9861eca806b63.png

图2 赛事2 ICDAR2023面向密集小文本场景的视频文字识别竞赛样例

赛事3:ICDAR 2023印章抬头识别竞赛(ICDAR 2023 Reading the Seal Title)

主要组织者:Xiang Bai(华中科技大学),Yuliang Liu(华中科技大学),Wenwen Yu(华中科技大学),Ning Lu(华为),Mingyu Liu(华中科技大学),Dimosthenis Karatzas(Universitat Autónoma de Barcelona)

随着深度学习的不断发展,包括场景文本检测与识别技术在内的OCR技术得到了飞速的发展,但是印章作为人们生活办公中随处可见的重要元素,却没有能够获得关注,而印章抬头识别这一课题也面临着诸多挑战,比如各式各样的印章形状,弯曲的文本内容,复杂的背景噪声以及无处不在的重叠文本干扰。

该比赛的数据由华中科技大学提供,包含丰富的不同印章类型数据。本赛事包含两个任务,分别为印章抬头文本检测和端到端印章抬头文本内容识别。 

比赛已于2023年1月1日开赛,详情可参考比赛官网: 

https://rrc.cvc.uab.es/?ch=20

14590820d093ba2141b889a12cc4c9e5.png

图3 赛事3 ICDAR 2023印章抬头识别竞赛样例

赛事4:ICDAR 2023多行公式识别竞赛(ICDAR 2023 Multi-line Handwritten Mathematical Expression Recognition Competition)

主要组织者:Chenyang Gao(华中科技大学),Yuliang Liu(华中科技大学),Shiyu Yao(好未来),Jinfeng Bai(好未来),Xiang Bai(华中科技大学),Lianwen Jin (华南理工大学), Chenglin Liu(中科院自动化所)

数学公式在科学文献中占有重要地位,在描述数学、物理等诸多领域的问题和理论时不可或缺。手写公式识别在智能化作业批改、智慧教育等领域也有着广泛的应用前景。现有数据集(CROHME、HME100K)仅关注单行公式,然而多行公式也经常出现在我们的日常生活中,在手写公式识别领域具有重要意义。 

该比赛的数据由好未来提供,来源于真实的应用场景。希望这个比赛能够吸引更多的研究人员、学生、从业人员关注这个领域,促进该领域的发展。 

比赛将于2023年1月11日开赛,详情可参考比赛官网:

https://ai.100tal.com/icdar

567225ac989b07c8afca1a962fcfbb5b.png

图4 赛事4 ICDAR 2023多行公式识别竞赛样例

赛事5:ICDAR 2023文本篡改检测竞赛 (ICDAR 2023 Competition on Detecting Tampered Text in Images)

主要组织者:Dongliang Luo (华中科技大学),Yu Zhou(华中科技大学),Rui Yang(阿里),Yuliang Liu(华中科技大学),Xianjin Liu(阿里) , Jishen Zeng(阿里),Enming Zhang(华中科技大学) , Biao Yang(华中科技大学) , Ziming Huang(华中科技大学),Lianwen Jin(华南理工大学),Xiang Bai(华中科技大学)

文本是人类社会中重要的信息载体,携带了许多重要信息。近年来,文档分析与识别领域快速发展,新兴技术层出不穷,应用于数字金融、电子商务、安全审核、智慧教育等各种领域,极大地方便了人们的生活。因此,能够防止文本信息被恶意篡改显得尤为重要,文本篡改检测也逐渐引发学术界与产业界的广泛关注。

由于篡改手段的多样性、篡改文本的隐蔽性,文本篡改检测目前存在着众多难点,如篡改痕迹微弱、篡改文本与邻近文本高度相似等。种种难点对检测方法的精度和泛化性提出了挑战。该比赛的数据由华中科技大学与阿里巴巴集团提供,竞赛将关注文本图像自身的真实性,聚焦于图像中的文本篡改检测与定位。

比赛将于2023年2月15日开赛,详情可参考比赛官网:  

https://tianchi.aliyun.com/competition/entrance/532048/introduction

66ad8ae19002c34b3ac5f1678abc618c.png

图5 赛事5 ICDAR 2023文本篡改检测竞赛样例

赛事6:ICDAR 2023数字原生视频文本问答竞赛(ICDAR 2023 Competition on Born Digital Video Text Question Answering)

主要组织者:Zhibo Yang(阿里巴巴),Xiaoge Song(南京大学),Sibo Song(阿里巴巴),Cong Yao(阿里巴巴),Tong Lu(南京大学),Xiang Bai(华中科技大学),Cheng-Lin Liu(中科院自动化所)

视频作为移动互联网时代最常见的内容服务媒介,在购物、直播、短视频、社交等领域扮演着越来越重要的角色。视频中文字作为视频的重要构成之一,是传递内容关键信息的最有效载体。

本次竞赛围绕数字原生视频中的文本提问和作答,数据集主要关注具有数字原生视频文字特色的视频内容和问答设置,包括但不限于:

(1)文字有较多动画和特效,如渐入渐出、放大缩小等;

(2)文字随载体旋转或位置变化而具有一定运动轨迹,如运动中的富文本商品等;

(3)问题回答需要跟踪和理解视频文本上下文,如安装某个工具的第几步等。

比赛的数据由阿里巴巴集团提供,本竞赛包含两个赛道。

第一个赛道关注视频中的文本数字化,相比已有的视频文本数据集,本赛道会更加侧重于视频文字的融合和去重。

第二个赛道是问答,据我们所知,这是业界第一次针对视频文字的问答,算法应该在完成视频OCR的融合后,进一步理解分句及整段文本所展示的内容。

比赛将于2023年2月15日开赛,详情可参考比赛官网:  

https://tianchi.aliyun.com/specials/promotion/ICDAR_2023_Competition_on_Born_Digital_Video_Text_QA

0e1499af36abd52023a07bc951c6760b.png

图6 赛事6 ICDAR 2023数字原生视频文本问答竞赛样例

d5c6db5c1d811fbed5c90d619db16791.jpeg

END

欢迎加入「OCR交流群👇备注:OCR

3dda63c0f75963793964c09c961609a5.png

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值