点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
添加微信号:CVer111,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
鱼羊 发自 凹非寺
转载自:量子位(QbitAI)
NeurIPS 2024放榜,人大附中有高中生一作入选。
今年,NeurIPS率先把AI顶会卷到了高中里,正式面向高中生征集论文,还为此专门设置了高中生赛道(High School Projects Track)。
现在结果终于出炉,北京大学计算机学院的张铭教授分享了一则入围消息:
人大附中吴悠,有一篇一作论文入选该赛道,还被选为了Spotlight Project。
论文题为《Vision-Braille:An End-to-End Tool for Chinese Braille Image-to-Text Translation》,提出了一种中文盲文图像到文本的端到端翻译工具。
据张铭教授介绍,吴悠在2022年高一加入她的课题组时,就提出了这个项目的想法。
端到端中文盲文图像到文本翻译工具
具体来说,该项目基于谷歌的mT5模型,采用Curriculum Learning(课程学习)方法微调出了一个盲文翻译模型。
其中的难点主要包括几个方面:
缺少数据集:中文盲文翻译数据集非常稀缺,数据的采集也比较困难,需要耗费大量人力。
盲文数据的特殊性:盲文通过最多三个单元格来表示每个汉字的发音,即声母、韵母和音调。但在实际使用中,盲文使用者通常会省略大部分声调符号,这给盲文翻译带来了挑战。
同音字混淆:中文中存在大量同音字,并且由于声调符号经常被省略,同音字的区分变得更加困难。
为此,论文作者们首先构建了一组中文-盲文数据集,包括Chinese-Braille-Full-Tone、Chinese-Braille-No-Tone和Chinese-Braille-10per-Tone。
作者从莱比锡数据集中收集了100万个不同的中文句子,使用中文盲文在线平台提供的工具,将收集到的中文句子转换为“全音”盲文。
而后,为了模拟真实世界中盲文使用者省略声调的情况,作者识别出这些盲文中代表声调的部分,并随机去除了其中90%的声调,创建Chinese-Braille-10per-Tone以反映现实世界中中文盲文的使用情况。
数据按照8:1:1的比例被划分为训练集、验证集和测试集。
训练方法方面,作者使用RetinaNet来执行盲文OCR任务,将盲文图像转换为数字盲文字符。
接着,采用课程学习策略——即从简单到复杂地安排训练任务,分三个阶段微调了多语言Transformer模型mT5:
第一阶段:使用Chinese-Braille-Full-Tone数据集作为训练的简单部分,让模型学习基本的翻译规则。这个数据集中的盲文包含完整的声调信息。
第二阶段:使用Chinese-Braille-No-Tone数据集,让模型在没有声调信息的情况下,学会根据上下文猜测正确的中文字符。
第三阶段:使用Chinese-Braille-10per-Tone数据集,让模型更好地适应实际应用场景。
实验结果显示,在验证集和测试集上,该模型的BLEU得分分别达到了62.4和62.3,显著提高了盲文翻译的准确度。
论文作者已经放出了项目Demo,效果是酱婶的,感兴趣的小伙伴们可以戳文末链接自行测试:
(正确答案:不过,对于自己外向的性格,埃托奥说,“这就是真实的我,我不会为此改变。)
该项目是在吴悠高三时完成。张铭教授透露,他目前已进入康奈尔大学就读计算机和生物医药工程专业。
论文致谢中提到,吴悠主要是在张铭教授博士生、论文第二作者袁野的指导下完成了这项研究。
张铭,北京大学计算机学院教授,博士生导师,研究领域包括文本挖掘、知识图谱、图神经网络和计算机教育研究等。她合作发表的科研学术论文曾获ICML 2014最佳论文、ICDM 2022最佳论文提名等荣誉。Google Scholar显示,她的论文引用量接近2万,h指数为48。
NeurIPS高中生赛道
NeurIPS是今年刚设的“高中生赛道”,主要征集“机器学习的社会影响”方向的论文。
公告是这样写的:
提交项目必须说明完全由高中生作者独立完成的工作。希望每个提交的项目都能突出显示积极的社会影响,或者使用机器学习产生积极社会影响的潜力。
详细来说,就是允许高中生们找外部导师来合作完成项目,但必须把导师以及合作者的贡献,和高中生作者的贡献区分开来。
公告中还规定了,作者需要提交高中在读证明,所有补充材料均应完全由作者完成,包括视频、Demo、海报、网站或源代码。
值得一提的是,其他顶会也有积极接触和影响高中生的趋势。
比如,CVPR的做法是和高中合作,开展CV领域的专业讲座等课外活动。
论文地址:
https://arxiv.org/abs/2407.06048
Demo地址:
https://vision-braille.com/
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看