核函数的本质是什么
核函数的产生过程
众所周知,分布函数的导数是密度函数,即:
f
(
x
)
=
F
′
(
x
)
=
lim
h
→
0
F
(
x
+
h
)
−
F
(
x
−
h
)
2
h
f(x)=F'(x)=\lim_{h\rightarrow0}\frac{F(x+h)-F(x-h)}{2h}
f(x)=F′(x)=limh→02hF(x+h)−F(x−h)
由于分布函数是未知的,所以用经验分布函数来近似代替分布函数,何为经验分布函数呢?下面给出其定义
定义:
F
n
(
x
)
=
1
n
∑
i
=
1
n
I
(
X
i
≤
x
)
F_n(x)=\frac{1}{n}\sum_{i=1}^{n}I(X_{i}\leq x )
Fn(x)=n1∑i=1nI(Xi≤x)
那么经验分布函数为何可以近似替代分布函数呢?
分布函数
F
(
X
)
=
P
(
X
≤
x
)
F(X)=P(X\leq x)
F(X)=P(X≤x),所以通俗的理解就是经验分布函数是用频率来近似表示概率以此来近似替代分布函数。
于是:
f
n
(
x
)
=
lim
h
→
0
F
n
(
x
+
h
)
−
F
n
(
x
−
h
)
2
h
f_n(x)=\lim_{h\rightarrow0}\frac{F_n(x+h)-F_n(x-h)}{2h}
fn(x)=limh→02hFn(x+h)−Fn(x−h)
根据经验分布函数的定义有
F
n
(
x
+
h
)
=
1
n
∑
i
=
1
n
I
(
X
i
≤
x
+
h
)
F_n(x+h)=\frac{1}{n}\sum_{i=1}^{n}I(X_{i}\leq x+h )
Fn(x+h)=n1∑i=1nI(Xi≤x+h)
F
n
(
x
−
h
)
=
1
n
∑
i
=
1
n
I
(
X
i
≤
x
−
h
)
F_n(x-h)=\frac{1}{n}\sum_{i=1}^{n}I(X_{i}\leq x-h )
Fn(x−h)=n1∑i=1nI(Xi≤x−h)
所以有
F
n
(
x
+
h
)
−
F
n
(
x
−
h
)
=
1
n
∑
i
=
1
n
I
(
−
1
≤
x
i
−
X
h
≤
1
)
F_n(x+h)-F_n(x-h)=\frac{1}{n}\sum_{i=1}^{n}I(-1\leq \frac{x_{i}-X}{h}\leq 1 )
Fn(x+h)−Fn(x−h)=n1∑i=1nI(−1≤hxi−X≤1)
所以
f
n
(
x
)
=
1
n
h
∑
i
=
1
n
I
(
∣
x
i
−
X
h
∣
≤
1
)
f_n(x)=\frac{1}{nh}\sum_{i=1}^{n}I(| \frac{x_{i}-X}{h}|\leq 1 )
fn(x)=nh1∑i=1nI(∣hxi−X∣≤1)
这里,我们先假设
k
(
u
)
=
1
2
I
(
∣
u
∣
≤
1
)
k(u)=\frac{1}{2}I(|u|\leq 1)
k(u)=21I(∣u∣≤1),因此有
k
(
x
i
−
X
h
)
=
1
2
I
(
∣
x
i
−
X
h
∣
≤
1
)
k(\frac{x_{i}-X}{h})=\frac{1}{2}I(| \frac{x_{i}-X}{h}|\leq 1 )
k(hxi−X)=21I(∣hxi−X∣≤1)
于是,
f
n
(
x
)
f_n(x)
fn(x)又可以进一步写成
f
n
(
x
)
=
1
n
∑
i
=
1
n
1
h
k
(
x
i
−
X
h
)
f_n(x)=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{h}k(\frac{x_{i}-X}{h})
fn(x)=n1∑i=1nh1k(hxi−X)
在这里,我们将
k
(
x
i
−
X
h
)
k(\frac{x_{i}-X}{h})
k(hxi−X)称为核函数。
上述的核函数,我们将其称为均匀核函数,因为它只有2种结果,在示性函数的区间中为
1
2
\frac{1}{2}
21,否则就是0。
这样做显然是不合适的,因为在实际的估计中,若
X
i
X_{i}
Xi越接近
x
x
x,核函数应该得到一个较大的、趋近于1的值,若
X
i
X_{i}
Xi距离
x
x
x相对较远,则核函数应该得到一个较小的、趋近于0的值。(这也是我们通常将核函数视为一个权重的原因)
于是,天才的数学家、统计学家们便发明出了一系列这样的神奇的核函数,不妨来一起感受一下。
常见的核函数及其表达式和图像详见下一小节 常见的核函数
常见的核函数
除上述提到的均匀核函数外,常用的核函数还有
1.Triangle 核函数:
k
(
u
)
=
(
1
−
∣
u
∣
)
I
(
∣
u
∣
≤
1
)
k(u)=(1-|u|)I(|u|\leq 1)
k(u)=(1−∣u∣)I(∣u∣≤1);
2.Epanechnikov 核函数:
k
(
u
)
=
3
4
(
1
−
u
2
)
I
(
∣
u
∣
≤
1
)
k(u)=\frac{3}{4}(1-u^2)I(|u|\leq 1)
k(u)=43(1−u2)I(∣u∣≤1);
3.Quartic 核函数:
k
(
u
)
=
15
16
(
1
−
u
2
)
2
I
(
∣
u
∣
≤
1
)
k(u)=\frac{15}{16}(1-u^2)^2I(|u|\leq 1)
k(u)=1615(1−u2)2I(∣u∣≤1);
4.Triweight 核函数:
k
(
u
)
=
35
32
(
1
−
u
2
)
3
I
(
∣
u
∣
≤
1
)
k(u)=\frac{35}{32}(1-u^2)^3I(|u|\leq 1)
k(u)=3235(1−u2)3I(∣u∣≤1);
5.Gaussian 核函数:
k
(
u
)
=
1
2
π
e
x
p
(
−
1
2
u
2
)
k(u)=\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}u^2)
k(u)=2π1exp(−21u2);
6.Cosine 核函数:
k
(
u
)
=
π
4
c
o
s
(
π
u
2
)
I
(
∣
u
∣
≤
1
)
k(u)=\frac{\pi}{4}cos(\frac{\pi u}{2})I(|u|\leq 1)
k(u)=4πcos(2πu)I(∣u∣≤1).
其图像如下:
[1]: 孙志华,尹俊平等 非参数与半参数统计[M] 清华大学出版社.2016.