大数定理
切比雪夫大数定理:
该定理表明,当n很大的时候,随机变量 X1,X2…Xn的算术平均值依概率收敛于它的期望值,说明了平均值具有稳定性。
伯努利大数定理:
该定理表明:在独立重复实验中,事件A发生的频率依概率收敛于事件A出现的概率,证明了频率的稳定性。在实际应用中,当实验次数很大时,可以用事件发生的频率来估计事件的概率
中心极限定理
在许多实际问题中,有很多随机现象可以看作是许多因素的独立影响的综合结果,而其中每个因素对该现象的影响很小,描述这类随机现象的随机变量可以看成许多互相独立的起微小作用的因素之和,理论上可以证明,他们往往近似服从正态分布。概率论中,把研究在什么条件下,大量独立的随机变量之和的分布以正态分布为极限这一类定理成为中心极限定理
设随机变量序列{
X
n
X_n
Xn}独立同分布,且存在数学期望和方差
E{
X
i
X_i
Xi}=
μ
\mu
μ D{
X
i
X_i
Xi}=
σ
2
\sigma^2
σ2>0
则当n充分大的时候有
∑
\sum
∑
X
i
X_i
Xi~
A
N
(
n
μ
,
n
σ
2
)
AN(n\mu ,n\sigma ^2)
AN(nμ,nσ2)
在线性回归中,将所有样本的训练误差看作随机变量序列,利用中心极限定理,证明误差服从正态分布
正态分布
X X X~ N ( μ , σ 2 ) N(\mu ,\sigma ^2) N(μ,σ2) 大量的随机现象可以用正态分布描述,许多机器学习算法就是建立在假设随机变量服从正态的条件下的
最大似然估计
最直观的想法是:在试验中概率最大的事件最有可能出现。我们利用手中的样本,去估算分布中的未知参数。
设总体
X
X
X的分布为
P
{
X
=
x
}
=
p
(
x
;
θ
)
P\left \{ X=x \right \}=p(x;\theta )
P{X=x}=p(x;θ)
P
{
X
1
=
x
1
,
X
2
=
x
2
.
.
.
X
n
=
x
n
}
=
∏
i
=
1
n
p
(
x
i
;
θ
)
=
L
(
θ
)
P\left \{ X_1=x_1 ,X_2=x_2...X_n=x_n\right \}=\prod_{i=1}^{n} p(x_i;\theta )=L(\theta)
P{X1=x1,X2=x2...Xn=xn}=∏i=1np(xi;θ)=L(θ)
(
θ
=
(
θ
1
,
θ
2
,
.
.
.
θ
n
)
)
(\theta=(\theta_1,\theta_2,...\theta_n))
(θ=(θ1,θ2,...θn))
使
L
(
θ
)
L(\theta)
L(θ)达到最大的参数 称为最大似然估计量
线性回归损失函数推导
大致思路是将样本的误差看作独立同分布,则他们为正态分布。已知了分布类型,未知是参数
θ
\theta
θ利用最大似然估计来求解
θ
\theta
θ。
最终写成矩阵形式损失函数为:
J
(
θ
)
=
1
2
(
X
θ
−
Y
)
T
(
X
θ
−
Y
)
J(\theta)=\frac{1}{2}(X\theta-Y)^T(X\theta-Y)
J(θ)=21(Xθ−Y)T(Xθ−Y)
一种解法是利用梯度下降,向着负梯度方向移动
或者直接求极值点,此时的
θ
\theta
θ取值为损失函数的最小值
梯度下降代码
##原函数
def f(x):
return x**2
##原函数导数
def h(x):
return 2*x
X=[]
Y=[]
x=2##初始值
step=0.8
f_change=f(x)
f_current=f(x)
X.append(x)
y.append(f_current)
while f_change>1e-10:
x=x-h(x)
tmp=f(x)
f_change=np.abs(f_current-tmp)
f_current=tmp
X.append(x)
y.append(f_currnt)
print('x= :',x)
print('f_change:',f_change,'f_current: ',f_current)
print('最终结果:', (x,f_current))
L0-Norm L1-Norm 和L2-Norm
向量范数:
把一个向量与一个非负实数相连系,这个实数在许多场合下可以作为向量大小的一种度量。向量范数就是这样的实数
向量范数的定义:
(
∑
∣
ε
i
∣
p
)
1
p
(\sum \left | \varepsilon_i\right |^p)^\frac{1}{p}
(∑∣εi∣p)p1
L0范数是指向量中非0的元素个数
L1范数指向量中各个元素绝对值之和
L2范数指向量中各个元素平方和然后求平方根
L0正则化很难求解,是个NP难问题
L1正则化可以进行特征选择,让部分特征的系数变为0
L2正则化可以防止过拟合,提高模型的泛化能力
上图分别为L1和L2正则项约束后的解空间,等高线是凸优化问题中目标函数的等高线。L1的解空间是多边形,更容易在尖角处与等高线撞出稀疏解