文档图像二值化DIB-图像质量评价指标
文档图像增强和二值化方法通常用于提高文档图像分析任务(如文本识别)的准确性和效率。传统的非机器学习方法以无人监督的方式构建在低级特征上,但难以在具有严重降级的背景上的文件上的二值化。基于卷积神经网络(CNN)的方法仅关注灰度图像和局部文本特征。本文介绍一些图像质量评价指标。
找paper搭配 Sci-Hub 食用更佳 (๑•̀ㅂ•́)و✧
Sci-Hub 实时更新 : https://tool.yovisun.com/scihub/
公益科研通文献求助:https://www.ablesci.com/
参考文献 : Submitted to IEEE Transactions on Image Processing
文档图像二值化DIB系列 paper -1-, paper -2-,database
图像相似度衡量指标
1. MSE, SNP, PSNR
对于任意的
x
x
x和
y
y
y的值,真实图像
f
(
x
,
y
)
f(x,y)
f(x,y),模型生成的二值图像
g
(
x
,
y
)
g(x,y)
g(x,y),则误差
e
(
x
,
y
)
=
g
(
x
,
y
)
−
f
(
x
,
y
)
e(x,y)=g(x,y)-f(x,y)
e(x,y)=g(x,y)−f(x,y)。
因此,两幅图像的总误差
E
E
E为
M
×
N
M×N
M×N个
e
i
e^i
ei相加。
E
=
∑
x
=
0
M
−
1
∑
y
=
0
N
−
1
[
g
(
x
,
y
)
−
f
(
x
,
y
)
]
E={\sum_{x=0}^{M-1} \sum_{y=0}^{N-1} [g(x,y)-f(x,y)]}
E=x=0∑M−1y=0∑N−1[g(x,y)−f(x,y)]
图像大小为
M
×
N
M×N
M×N,均方误差
M
S
E
MSE
MSE是在
M
×
N
M×N
M×N阵列上的平均误差。
M
S
E
=
∑
x
=
0
M
−
1
∑
y
=
0
N
−
1
[
g
(
x
,
y
)
−
f
(
x
,
y
)
]
2
M
×
N
MSE=\frac {\sum_{x=0}^{M-1} \sum_{y=0}^{N-1} [g(x,y)-f(x,y)]^2}{M×N}
MSE=M×N∑x=0M−1∑y=0N−1[g(x,y)−f(x,y)]2
信噪比
S
N
R
,
单
位
:
d
B
:
SNR,单位:dB:
SNR,单位:dB:
S
N
R
=
∑
x
=
0
M
−
1
∑
y
=
0
N
−
1
g
(
x
,
y
)
2
∑
x
=
0
M
−
1
∑
y
=
0
N
−
1
[
g
(
x
,
y
)
−
f
(
x
,
y
)
]
2
SNR=\frac {\sum_{x=0}^{M-1} \sum_{y=0}^{N-1} g(x,y)^2} {\sum_{x=0}^{M-1} \sum_{y=0}^{N-1} [g(x,y)-f(x,y)]^2}
SNR=∑x=0M−1∑y=0N−1[g(x,y)−f(x,y)]2∑x=0M−1∑y=0N−1g(x,y)2
峰值信噪比
P
S
N
R
,
P
e
a
k
S
i
g
n
a
l
t
o
N
o
i
s
e
R
a
t
i
o
:
PSNR,Peak Signal to Noise Ratio:
PSNR,PeakSignaltoNoiseRatio:
P
S
N
R
=
∑
x
=
0
M
−
1
∑
y
=
0
N
−
1
M
a
x
,
g
(
x
,
y
)
2
/
M
N
∑
x
=
0
M
−
1
∑
y
=
0
N
−
1
[
g
(
x
,
y
)
−
f
(
x
,
y
)
]
2
/
M
N
=
M
a
x
V
a
l
u
e
2
M
S
E
PSNR=\frac {\sum_{x=0}^{M-1} \sum_{y=0}^{N-1} Max^,g(x,y)^2 /MN} {\sum_{x=0}^{M-1} \sum_{y=0}^{N-1} [g(x,y)-f(x,y)]^2 /MN} =\frac {{MaxValue} ^2} {MSE}
PSNR=∑x=0M−1∑y=0N−1[g(x,y)−f(x,y)]2/MN∑x=0M−1∑y=0N−1Max,g(x,y)2/MN=MSEMaxValue2
计算时使用:
P
S
N
R
=
10
log
10
M
a
x
V
a
l
u
e
2
M
S
E
=
10
log
10
25
5
2
M
S
E
PSNR=10\log_{10} {\frac {{MaxValue} ^2} {MSE}}=10\log_{10} \frac {255^2} {MSE}
PSNR=10log10MSEMaxValue2=10log10MSE2552
def cal_psnr(im1, im2):
mse = (np.abs(im1 - im2) ** 2).mean()
psnr = 10 * np.log10(255 * 255 / mse)
return psnr
对于 f l o a t float float型的图像数据,其取值范围是 [ 0 , 1 ] [0, 1] [0,1],设置 M a x V a l u e MaxValue MaxValue为 1 1 1。对于 u i n t 8 uint8 uint8类型的图像数据,其取值范围是 [ 0 , 255 ] [0, 255] [0,255],设置 M a x V a l u e MaxValue MaxValue为 255 255 255。 P S N R PSNR PSNR越大越好。
2. SSIM
结构相似度指数
S
t
r
u
c
t
u
r
a
l
S
i
m
i
l
a
r
i
t
y
Structural Similarity
StructuralSimilarity,是一种衡量两幅图像相似度的指标。从图像组成的角度将结构信息定义为独立于亮度、对比度的反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。结构相似性的范围为
[
−
1
,
1
]
[-1,1]
[−1,1]。当两张图像一模一样时,
S
S
I
M
SSIM
SSIM的值等于
1
1
1。
其中
μ
x
\mu_x
μx是
x
x
x的平均值,
μ
y
\mu_y
μy是
y
y
y的平均值,
σ
y
2
\sigma_y^2
σy2是
y
y
y的方差,
σ
x
2
\sigma_x ^2
σx2是
x
x
x的方差,
σ
x
y
\sigma_{xy}
σxy是
x
x
x和
y
y
y的协方差。
C
1
=
(
k
1
L
)
2
C_1=(k_1L)^2
C1=(k1L)2,
C
2
=
(
k
2
L
)
2
C_2=(k_2L)^2
C2=(k2L)2是用来维持稳定的常数。
L
L
L是像素值的动态范围。
k
1
=
0.01
k_1=0.01
k1=0.01,
k
2
=
0.03
k_2=0.03
k2=0.03。
def cal_ssim(im1, im2):
assert len(im1.shape) == 2 and len(im2.shape) == 2
assert im1.shape == im2.shape
mu1 = im1.mean()
mu2 = im2.mean()
sigma1 = np.sqrt(((im1 - mu1) ** 2).mean())
sigma2 = np.sqrt(((im2 - mu2) ** 2).mean())
sigma12 = ((im1 - mu1) * (im2 - mu2)).mean()
k1, k2, L = 0.01, 0.03, 255
C1 = (k1*L) ** 2
C2 = (k2*L) ** 2
C3 = C2/2
l12 = (2*mu1*mu2 + C1)/(mu1 ** 2 + mu2 ** 2 + C1)
c12 = (2*sigma1*sigma2 + C2)/(sigma1 ** 2 + sigma2 ** 2 + C2)
s12 = (sigma12 + C3)/(sigma1*sigma2 + C3)
ssim = l12 * c12 * s12
return ssim
图 像 二 值 化 模 型 评 估 指 标 : 图像二值化模型评估指标: 图像二值化模型评估指标:
F M , p − F M , P S N R , S S I M , D R D , M P M , N R M FM,p-FM,PSNR,SSIM, DRD,MPM, NRM FM,p−FM,PSNR,SSIM,DRD,MPM,NRM
3. FM,p-FM
F
−
M
e
a
s
u
r
e
:
F-Measure :
F−Measure:
R
e
c
a
l
l
,
P
r
e
c
i
s
i
o
n
Recall,Precision
Recall,Precision为分类中的性能指标。
p
s
e
u
d
o
F
−
M
e
a
s
u
r
e
:
pseudo F-Measure :
pseudoF−Measure:
p
R
e
c
a
l
l
pRecall
pRecall定义为
g
r
o
u
n
d
ground
ground
t
r
u
t
h
truth
truth 图片的镂空百分比。
4. DRD
D
i
s
t
a
n
c
e
R
e
c
i
p
r
o
c
a
l
D
i
s
t
o
r
t
i
o
n
M
e
t
r
i
c
:
Distance Reciprocal Distortion Metric :
DistanceReciprocalDistortionMetric:
D
R
D
DRD
DRD用于衡量二值化文档图像中的视觉失真。
5. MPM,NRM
M
i
s
c
l
a
s
s
i
f
i
c
a
t
i
o
n
P
e
n
a
l
t
y
M
e
t
r
i
c
:
Misclassification Penalty Metric:
MisclassificationPenaltyMetric:
M
P
M
=
M
P
F
N
+
M
P
F
P
2
MPM=\frac{MP_{FN}+MP_{FP}} {2}
MPM=2MPFN+MPFP
w
h
e
r
e
where
where
M
P
F
N
=
∑
i
d
F
N
i
D
,
M
P
F
P
=
∑
j
d
F
P
j
D
MP_{FN}=\frac{{\sum_i}d_{FN}^i}{D},MP_{FP}=\frac{{\sum_j}d_{FP}^j}{D}
MPFN=D∑idFNi,MPFP=D∑jdFPj
d
F
N
i
d_{FN}^i
dFNi和
d
F
P
j
d_{FP}^j
dFPj表示
G
T
GT
GT图像中第
i
i
i个假阴性和第
j
j
j个假阳性像素距离文本轮廓的距离。归一化因子
D
D
D是
G
T
GT
GT对象的所有像素到轮廓距离之和。
M
P
M
MPM
MPM越小越好。
N
e
g
a
t
i
v
e
R
a
t
e
M
e
t
r
i
c
:
Negative Rate Metric:
NegativeRateMetric:
N
R
M
=
N
R
F
N
+
N
R
F
P
2
NRM=\frac{NR_{FN}+NR_{FP}} {2}
NRM=2NRFN+NRFP
w
h
e
r
e
where
where
N
R
F
N
=
F
N
F
N
+
T
P
,
N
R
F
P
=
F
P
F
P
+
T
N
NR_{FN}=\frac{FN}{FN+TP},NR_{FP}=\frac{FP}{FP+TN}
NRFN=FN+TPFN,NRFP=FP+TNFP
N
R
M
NRM
NRM衡量
G
T
GT
GT与预测图像之间的不匹配程度。