AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
论文名称:TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text(TextOCR:对任意形状的场景文本进行大规模的端到端推理)
论文链接:https://www.aminer.cn/pub/609cfaf891e01118a99b936a
推荐理由: 该工作来自Facebook AI Research。TextVQA和TextCaps数据集所需的基于场景文本推理中一个重要组成部分是使用光学字符识别(optical character recognition,OCR)系统检测和识别图像中的文本。由于目前的系统无法获得这些数据集的真实文本注释以及缺乏真实图像上的场景文本检测和识别数据集,OCR领域的进展和基于场景文本推理的评估与OCR系统相分离。该工作提出了TextOCR——任意形状的场景文本检测和识别,在TextVQA数据集的真实图像上收集了90万个注释词。作者使用经过TextOCR训练的OCR模型来创建PixelM4C模型,该模型能够以端到端的方式对图像进行基于文本的推理,进而重新审视设计选择,以便在TextVQA数据集上实现新的最先进的性能。
AMiner,AI赋能的学术搜索平台:https://www.aminer.cn/
#AMiner# #论文#