票据图片复杂表格框识别(票据单元格切割)
做票据OCR文字提取的时候,由于票据版面不固定,文字印刷错位、粘连等,想要提取目标内容非常困难。如果首先能把票据的表格框形式识别出来,再切割出单元格,OCR再识别单元格里面的内容会容易很多。
运用unet实现对文档表格的自动检测
所有代码获取:
本文相关代码 项目获取方式:
关注微信公众号 datayx 然后回复 表格 即可获取。
AI项目体验地址 https://loveai.tech
获取项目代码后,安装步骤:
1、下载、编译 darknet
git clone https://github.com/pjreddie/darknet.git
cd darknet && make
2、下载text.weights模型文件
模型文件地址:
http://www.chineseocr.com:9990/static/models/table-ocr/table.weights
拷贝table.weights文件到models目录
3、修改config.py 内的 darknet 安装目录
运行
python table.py -jpgPath test/dd.jpg
效果展示:
表格检测项目二: https://github.com/timandy/table_ocr
阅读过本文的人还看了以下文章:
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿