1. PSNR
(MSE开根号是为了MAXI和MSE保持相同的单位。将原图像和压缩后的图像的MSE放在分母,可以得到误差越小,PSNR越大的效果。 MAXI放在分母,是消除原图像的像素取值范围对误差MSE的影响。)
2. Mask IoU
Mask IoU是用在图像分割和目标检测中,两个框的重叠程度,为了排除预测框和GT框尺寸对重叠程度的影响,IoU将两者均考虑在内。
A∩B = TP , A∪B = FN + TP + FP ,A+B = FN + TP +TP + FP
可能是两张渲染结果的对物体的mask框比较?
3. Cost volume
1) epipolar line
c0、c1为两个相机中心,p为空间中一点。p在image plane上的投影分别为x0、x1; c0、c1在image plane上的投影为e0,e1。
c0、c1连线与像平面的交点e0、e1称为极点(Epipoles),l0、l1称为极线(Epipolar Lines)
在实际图像中,epipoles 是epipolar lines的交点,不一定在图像内。
对于前后移动的镜头,则epipoles位于focus of expansion
2) cost volume
cost volume是什么:设参考图像尺寸H*W,每个reference image对应一个尺寸为D的search space 。cost volume是这些搜索空间的集合储存了所有matching cost,尺寸为H*W*D。
cost volume如何求
a) 首先对两张图像rectify,把两张图像投影到与相机连线平行的平面上。则投影后的图像的对应像素点之间只存在水平位移(因为左右相机的中心点连线与地面平行),这个水平位移之差则为视差x-x’。
b) 然后确定epipolar line。
i. 为什么要确定epipolar line:因为reference image中的一个pixel,可能对应线段c0p上不同disparity level的点(d_1, d_2, ..., d_9),这些点又与matching image中epipolar line上的pixel一一对应。Epipolar line的存在将搜索空间从原来的整张图像缩小为一条线。(ps: 因为x和x‘分别在epipolar lines上,因此x^Tl=0;x’^Tl’=0)
ii. 如何确定epipolar line:通过essential matrix l’=Ex, l=E^(T)x’。 E=R[t_x]。其中R,t为将o坐标系下的点变换到o‘坐标系,对应的旋转矩阵和平动矩阵。12.2 Essential Matrix (cmu.edu) 。
iii. 为什么用fundamental matrix代替essential matrix。essential matrix 假设相机坐标系和世界坐标系对齐。而fundamental matrix不需要。所以
由于x‘,e’在 l‘上可以被表示为: =Fx。因此F可以被表示为: (H is a homography that maps x to x’)
iv. 如何求fundamental matrix: 8 points algorithm. 因为矩阵缩放后效果相同,所以DOF=9-1,并且F能将2维图像点投影到1维线段中,rank=2,所以不满秩 det F=0, DOF=7. 所以只需要大于等于7个点即可求出F矩阵,但是7 point 方法较为复杂,所以一般使用8 points algorithm。F的尺寸3*3是由点坐标维度都是3维决定的。
c) 因此对matching image对应的pixel计算matching cost(SSD或SAD等),计算与reference image中pixel的匹配程度。
13.2 Stereo Matching (cmu.edu)
4. Sparity 视差
(和深度呈反比)
5. homography transform单应性矩阵
如果两台相机拍摄的是同一个场景,但两台相机之间只有旋转角度的不同,没有任何位移,则这两台相机之间的关系称为Homography。则两张图片上的点坐标可以用一个射影变换(projective transformation)表述。