李宏毅机器学习1~3

大数定理

切比雪夫大数定理:
该定理表明,当n很大的时候,随机变量 X1,X2…Xn的算术平均值依概率收敛于它的期望值,说明了平均值具有稳定性。
伯努利大数定理:
该定理表明:在独立重复实验中,事件A发生的频率依概率收敛于事件A出现的概率,证明了频率的稳定性。在实际应用中,当实验次数很大时,可以用事件发生的频率来估计事件的概率

中心极限定理

在许多实际问题中,有很多随机现象可以看作是许多因素的独立影响的综合结果,而其中每个因素对该现象的影响很小,描述这类随机现象的随机变量可以看成许多互相独立的起微小作用的因素之和,理论上可以证明,他们往往近似服从正态分布。概率论中,把研究在什么条件下,大量独立的随机变量之的分布以正态分布为极限这一类定理成为中心极限定理
设随机变量序列{ X n X_n Xn}独立同分布,且存在数学期望和方差
E{ X i X_i Xi}= μ \mu μ D{ X i X_i Xi}= σ 2 \sigma^2 σ2>0
则当n充分大的时候有
∑ \sum X i X_i Xi~ A N ( n μ , n σ 2 ) AN(n\mu ,n\sigma ^2) AN(nμ,nσ2)
在线性回归中,将所有样本的训练误差看作随机变量序列,利用中心极限定理,证明误差服从正态分布

正态分布

X X X~ N ( μ , σ 2 ) N(\mu ,\sigma ^2) N(μ,σ2) 大量的随机现象可以用正态分布描述,许多机器学习算法就是建立在假设随机变量服从正态的条件下的

最大似然估计

最直观的想法是:在试验中概率最大的事件最有可能出现。我们利用手中的样本,去估算分布中的未知参数。
设总体 X X X的分布为
P { X = x } = p ( x ; θ ) P\left \{ X=x \right \}=p(x;\theta ) P{X=x}=p(x;θ)
P { X 1 = x 1 , X 2 = x 2 . . . X n = x n } = ∏ i = 1 n p ( x i ; θ ) = L ( θ ) P\left \{ X_1=x_1 ,X_2=x_2...X_n=x_n\right \}=\prod_{i=1}^{n} p(x_i;\theta )=L(\theta) P{X1=x1,X2=x2...Xn=xn}=i=1np(xi;θ)=L(θ) ( θ = ( θ 1 , θ 2 , . . . θ n ) ) (\theta=(\theta_1,\theta_2,...\theta_n)) (θ=(θ1,θ2,...θn))
使 L ( θ ) L(\theta) L(θ)达到最大的参数 称为最大似然估计量

线性回归损失函数推导

在这里插入图片描述
大致思路是将样本的误差看作独立同分布,则他们为正态分布。已知了分布类型,未知是参数 θ \theta θ利用最大似然估计来求解 θ \theta θ
最终写成矩阵形式损失函数为:
J ( θ ) = 1 2 ( X θ − Y ) T ( X θ − Y ) J(\theta)=\frac{1}{2}(X\theta-Y)^T(X\theta-Y) J(θ)=21(XθY)T(XθY)
一种解法是利用梯度下降,向着负梯度方向移动
或者直接求极值点,此时的 θ \theta θ取值为损失函数的最小值

梯度下降代码

 ##原函数
  def f(x):
  	return x**2
 ##原函数导数
 def h(x):
 	return 2*x
 X=[] 
 Y=[]
 x=2##初始值
 step=0.8
 f_change=f(x)
 f_current=f(x)
 X.append(x)
 y.append(f_current)
 while f_change>1e-10:
 	x=x-h(x)
 	tmp=f(x)
 	f_change=np.abs(f_current-tmp)
 	f_current=tmp
 	X.append(x)
 	y.append(f_currnt)
 	print('x= :',x)
 	print('f_change:',f_change,'f_current: ',f_current)
 print('最终结果:', (x,f_current))

L0-Norm L1-Norm 和L2-Norm

向量范数:
把一个向量与一个非负实数相连系,这个实数在许多场合下可以作为向量大小的一种度量。向量范数就是这样的实数
向量范数的定义:
( ∑ ∣ ε i ∣ p ) 1 p (\sum \left | \varepsilon_i\right |^p)^\frac{1}{p} (εip)p1

L0范数是指向量中非0的元素个数
L1范数指向量中各个元素绝对值之和
L2范数指向量中各个元素平方和然后求平方根

L0正则化很难求解,是个NP难问题
L1正则化可以进行特征选择,让部分特征的系数变为0
L2正则化可以防止过拟合,提高模型的泛化能力

在这里插入图片描述
上图分别为L1和L2正则项约束后的解空间,等高线是凸优化问题中目标函数的等高线。L1的解空间是多边形,更容易在尖角处与等高线撞出稀疏解

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值