一听这概念就知道牛逼,以前文档识别要先OCR,再进行文档理解,OCR错误会传递给文档理解模型,而且花的时间长。这模型直接理解图片文档,如果识别率达到人类水平,那以后给学生辅导试卷作业不错啊。另外就是那些合同、说明书直接传给模型,再提问题就好了!还能模拟生成文档图片,这这样生成具有特定字符图片的图像就可以搞定了,与stable Diffusion等模型结合,有很大想象空间。
论文地址:https://arxiv.org/pdf/2111.15664v5.pdf
GitHub:https://github.com/clovaai/donut
chatgpt: http://chat.menganhealth.cn/
简介
摘要:理解文档图像(例如,发票)是一项核心但具有挑战性的任务,因为它需要如阅读文本和整体理解文档等复杂功能。当前的视觉文档理解(VDU)方法将阅读文本的任务外包给现成的光学