基于OCR识别引擎的识别表格文字并将结果以Excel电子表格的形式原样导出的Android客户端代码
界面截图
实现思路
- 对表格图片进行灰度化和二值化处理
- 对图像进行倾斜矫正
- 进行表格线提取
- 进行表格线矫正
- 单元格提取
- 根据返回的每个单元格的像素位置对原图像进行剪裁
- 对剪裁得到的内容逐个进行Ocr识别
- 将识别的内容根据返回的位置数据写入Excel表格
其中的1~5步考虑到效率问题,使用C++代码编写,并编译成了so文件在代码中进行调用。
相关代码说明
public class TrimCell {
private int LeftTopRow; //单元格左上角的纵坐标像素位置
private int LeftTopColumn; //单元格左上角的横坐标像素位置
private int RightBottomRow; //单元格右下角的纵坐标像素位置
private int RightBottomColumn; //单元格右下角的横坐标像素位置
private int StartRow; //在原表格的开始行
private int EndRow