本文描述一种利用OpenCV及傅里叶变换识别图片中文本旋转角度并自动校正的方法,由于对C#比较熟,因此本文将使用OpenCVSharp。 文章参考了http://johnhany.net/2013/11/dft-based-text-rotation-correction,对原作者表示感谢。我基于OpenCVSharp用C#进行了重写,希望能帮到同样用OpenCVSharp的同学。
================= 正文开始 =================
手里有一张图片如下,是经过旋转的,如何通过程序自动对它进行旋转校正? (旋转校正是行分割、字符识别等后续工作的基础)
傅里叶变换可以用于将图像从时域转换到频域,对于分行的文本,其频率谱上一定会有一定的特征,当图像旋转时,其频谱也会同步旋转,因此找出这个特征的倾角,就可以将图像旋转校正回去。
先来对原始图像进行一下傅里叶变换,需要这么几步:
1、以灰度方式读入原文件
string filename = "source.jpg"; var src = IplImage.FromFile(filename, LoadMode.GrayScale);
2、将图像扩展到合适的尺寸以方便快速变换
OpenCV中的DFT对图像尺寸有一定要求,需要用GetOptimalDFTSize方法来找到合适的大小,根据这个大小建立新的图像,把原图像拷贝过去,多出来的部分直接填充0。
int width = Cv.GetOptimalDFTSize(src.Width); int height = Cv.GetOptimalDFTSize(src.Height); var padded = new IplImage(width, height, BitDepth.U8, 1);//扩展后的图像,单通道 Cv.CopyMakeBorder(src, padded, new CvPoint(0, 0), BorderType.Constant, CvScalar.ScalarAll(0));
3、进行DFT运算
DFT要分别计算实部和虚部,这里准备2个单通道的图像,实部从原图像中拷贝数据,虚部清零,然后把它们Merge为一个双通道图像再进行DFT计算,完成后再Split开。
//实部、虚部(单通道) var real = new IplImage(padded.Size, BitDepth.F32, 1); var imaginary = new IplImage(padded.Size, BitDepth.F32, 1); //合成(双通道) var fourier = new IplImage(padded.Size, BitDepth.F32, 2); //图像复制到实部,虚部清零 Cv.ConvertScale(padded, real); Cv.Zero(imaginary); //合并、变换、再分解 Cv.Merge(real, imaginary, null, null, fourier); Cv.DFT(fourier, fourier, DFTFlag.Forward); Cv.Split(fourier, real, imaginary, null, null);
4、对数据进行适当调整