一、背景
纸质文档被相机拍摄成文档图像后,首先要进行版面分析和理解,从文字、表格、图形图像等多个维度进行解码重构,之后才能正式数字化为电子文档。
二、分析思路
1.版面元素检测
(1)版面分析任务拆解
(2)整个训练流程
2.文本行检测--DBNet
3.文本行识别--CRNN
4.pytorch转onnx
(1)基于AIMO的模型转换
(2)ONNX->Tflite
五、AidLux部署和应用
三、存在问题
1.导入pytorch的问题
在torch官网上找到previous的版本,然后找到对应的torch版本,使用命令行下载
在这个网站上download.pytorch.org/whl/torch/找到torch和torchvision的版本,一定要与python版本和cuda版本对应
2、使用这个命令需要在包含该txt的文件夹下
pip install -r requirement.txt
download.pytorch.org/whl/torch/3、vscode远程连接
4、部署在AidLux上的报错
(1)修改config.py里的路径
(2)pymupdf没有open模块的问题
我最后在code_for_pdf.py上import docx就能运行了
(3)OSError: cannot open resource
没有相关字体文件报错
后面的问题我把相对路径改为绝对路径之后就能运行了
PS:刘一手老师讲解的很出色,我学到很多,之前也用过paddleOCR来识别字符,就是没有这么完整的了解整个版面识别的问题,收获很大。