先做详细笔记 官网范例:
#include "opencv2/core/core.hpp"
#include "opencv2/imgproc/imgproc.hpp"
#include "opencv2/imgcodecs.hpp"
#include "opencv2/highgui/highgui.hpp"
#include <iostream>
using namespace cv;
using namespace std;
static void help(char* progName)
{
cout << endl
<< "This program demonstrated the use of the discrete Fourier transform (DFT). " << endl
<< "The dft of an image is taken and it's power spectrum is displayed." << endl
<< "Usage:" << endl
<< progName << " [image_name -- default ../data/lena.jpg] " << endl << endl;
}
int main(int argc, char ** argv)
{
help(argv[0]);
const char* filename = argc >=2 ? argv[1] : "../data/lena.jpg";
Mat I = imread(filename, IMREAD_GRAYSCALE);
if( I.empty())
return -1;
Mat padded; //expand input image to optimal size
int m = getOptimalDFTSize( I.rows );
int n = getOptimalDFTSize( I.cols ); // on the border add zero values
copyMakeBorder(I, padded, 0, m - I.rows, 0, n - I.cols, BORDER_CONSTANT, Scalar::all(0));
Mat planes[] = {Mat_<float>(padded), Mat::zeros(padded.size(), CV_32F)};
Mat complexI;
merge(planes, 2, complexI); // Add to the expanded another plane with zeros
dft(complexI, complexI); // this way the result may fit in the source matrix
// compute the magnitude and switch to logarithmic scale
// => log(1 + sqrt(Re(DFT(I))^2 + Im(DFT(I))^2))
split(complexI, planes); // planes[0] = Re(DFT(I), planes[1] = Im(DFT(I))
magnitude(planes[0], planes[1], planes[0]);// planes[0] = magnitude
Mat magI = planes[0];
magI += Scalar::all(1); // switch to logarithmic scale
log(magI, magI);
// crop the spectrum, if it has an odd number of rows or columns
magI = magI(Rect(0, 0, magI.cols & -2, magI.rows & -2));
// rearrange the quadrants of Fourier image so that the origin is at the image center
int cx = magI.cols/2;
int cy = magI.rows/2;
Mat q0(magI, Rect(0, 0, cx, cy)); // Top-Left - Create a ROI per quadrant
Mat q1(magI, Rect(cx, 0, cx, cy)); // Top-Right
Mat q2(magI, Rect(0, cy, cx, cy)); // Bottom-Left
Mat q3(magI, Rect(cx, cy, cx, cy)); // Bottom-Right
Mat tmp; // swap quadrants (Top-Left with Bottom-Right)
q0.copyTo(tmp);
q3.copyTo(q0);
tmp.copyTo(q3);
q1.copyTo(tmp); // swap quadrant (Top-Right with Bottom-Left)
q2.copyTo(q1);
tmp.copyTo(q2);
normalize(magI, magI, 0, 1, NORM_MINMAX); // Transform the matrix with float values into a
// viewable image form (float between values 0 and 1).
imshow("Input Image" , I ); // Show the result
imshow("spectrum magnitude", magI);
waitKey();
return 0;
}
原理
对一张图像使用傅里叶变换就是将它分解成正弦和余弦两部分。也就是将图像从空间域(sptial domain)转换到频域(frequency domain)。这一转换的理论基础来自于以下数学公式:
公式中f 是空间域(spatial domain)值,F则是频域(frequency domain)值。转换完成之后频域是复数,因此,显示傅里叶变换之后的结果需要使用实数图像(real image) 加 虚数图像(complex image)或者幅度图像(magitude image)加相位图像(phase image)。在实际的图像处理过程中,仅仅使用了幅度图像,因为幅度图像包含了原图像的所有几乎我们需要的几何信息。然而,如果你想通过修改幅度图像或者相位图像的方法来间接修改原空间图像,你需要使用逆傅里叶变换得到修改后的空间图像,这样你就必须同时保留幅度图像和相位图像了。(简单理解: 比如说图片有些瑕疵通过正常手法很难处理,那么就将图片从空间域转换到频域,频域处理完成后需要将处理后的图片转换回空间域(就是逆傅里叶变换),那么就需要同时保留幅度图像和相位图像)。
在此示例中展示了如何计算以及显示傅里叶便函之后的幅度图像。由于数字图像的离散型,像素值的取值范围也是有限的。比如在一张灰度图像中,像素灰度值一般在0到255之间。因此,我们这里讨论的页仅仅是离散傅里叶变换(DFT)。如果你需要得到图像中的几何结构信息,那你就要用到它了。请参考以下步骤(假设输入图像为单通道的灰度图像):
- 将图像延扩到最佳尺寸。离散傅里叶变换的运行速度和图片的尺寸息息相关。当图像的尺寸是2,3,5的整数倍时,计算速度最快。因此,为了达到最快速计算的目的,经常通过添凑新的边缘像素的方法获取最佳图像尺寸。函数 getOptimalDftSize()返回最佳尺寸,而函数copyBorder()填充边缘像素;
Mat padded;
int m = getOptimalDFTSize(I.rows);
int n = getOptimalDFTSize(I.cols);
copyBorder(I, padded, 0, m - I.rows, 0, n - I.cols, BODER_CONSTANT,Scalar::all(0));
2. 为傅里叶变换的结果(实部和虚部)分配存储空间。傅里叶变换的结果是复数,这就是说对于每个原图像值,结果是两个图像值,此外,频域值范围远远超过空间值范围,因此至少要将频域存储在float格式中。结果我们将输入图像转换成浮点型(float),并多加一个额外通道来存储复数部分:(简单理解:原图空间域的像素值转换成频域之后分别存在了实部和虚部中变成了2个,这2个的值范围都超过了空间范围,需要重新分配空间存储 )
Mat planes[] = { Mat_<float> (padded), Mat::zeros(padded.size(),CV_32F) }; //定义一个数组,存储频域转换成float类型的对象,再存储一个和它一样大小空间的对象来存储复数部分
Mat complexI;
merge(planes ,2, complexI); //将2个单通道的图像合成一幅多通道图像
3. 进行离散傅里叶变换。支持图像原地计算(输入输出为同一图像):
dft(complexI, complexI); //变换结果好好的保存在原始矩阵中
4. 将复数转换为幅度。复数包含实数部分(Re)和虚数部分(imaginary -lm).离散傅里叶变换的结果是复数,对应的幅度可以表示为:
转化为OpenCV代码:
split(complexI,planes); //将多通道的图分离成多个单通道的图 planes[0] = Re(DFT(I),planes[1]= Im(DFT(I)))
magnitude(planes[0],planes[1],planes[0]);
Mat magI = planes[0];
5. 对数尺度(logarithmic scale)缩放。 傅里叶变换的幅度值范围达到不适合在屏幕上显示.高值在屏幕上显示为白点,而低值为黑点,高低值的变化无法有效分辨。为了在屏幕上凸显出高低变化的连续性,我们可以用对数尺度来替换线性尺度:
转化为OpenCV代码:
magI += Scalar::all(1);
log(magI,magI);
6.剪切和重分布幅度图像限。还记得我们第一步时延扩了图像吗? 那现在是时候将新添加的像素剔除了。为了方便显示,我们也可以重新分布幅度象限位置(注: 将第五步得到的幅度图从中间划开得到四张1/4子图像,将每张图像看成幅度图的一个象限,重新分布即将四个角点重叠到图片中心)。这样的话原点(0,0)就位移到图像中心。
magI = magI(Rect(0, 0, magI.cols & -2, magI.rows & -2));
int cx = magI.cols/2;
int cy = magI.rows/2;
Mat q0(magI, Rect(0, 0, cx, cy)); // Top-Left - 为每一个象限创建ROI
Mat q1(magI, Rect(cx, 0, cx, cy)); // Top-Right
Mat q2(magI, Rect(0, cy, cx, cy)); // Bottom-Left
Mat q3(magI, Rect(cx, cy, cx, cy)); // Bottom-Right
Mat tmp; // 交换象限 (Top-Left with Bottom-Right)
q0.copyTo(tmp);
q3.copyTo(q0);
tmp.copyTo(q3);
q1.copyTo(tmp); // 交换象限 (Top-Right with Bottom-Left)
q2.copyTo(q1);
tmp.copyTo(q2);
7.归一化。 这一步的 目的仍然是为了显示。现在我们有了重新分布后的幅度,但是幅度值仍然超过可显示范围[0,1]。 我们使用normalize()函数将幅度归一化到可显示范围。
normalize(magI,magI,0,1,CV_MINMAX); //将float类型的矩阵转换到可显示图像范围
...处理完成后如需要逆向傅里叶变换
//*逆向傅里叶变换
Mat ifft;
idft(complexI,ifft,DFT_REAL_OUTPUT);
normalize(ifft,ifft,0,1,CV_MINMAX);
imshow("ifft",ifft);
结果
离散傅立叶变换的一个应用是决定图片中物体的几何方向.比如,在文字识别中首先要搞清楚文字是不是水平排列的? 看一些文字,你就会注意到文本行一般是水平的而字母则有些垂直分布。文本段的这两个主要方向也是可以从傅立叶变换之后的图像看出来。我们使用这个 水平文本图像 以及 旋转文本图像 来展示离散傅立叶变换的结果 。
水平文本图像:
旋转文本图像:
观察这两张幅度图你会发现频域的主要内容(幅度图中的亮点)是和空间图像中物体的几何方向相关的。 通过这点我们可以计算旋转角度并修正偏差。