Deep Learning 第五章
1.基本假设(独立同分布~iid)
- 训练集与数据集的样本独立的由分布函数 p d a t a p_{data} pdata产生
2.估计
- p m o d e l ( x ; θ ) p_{model}(x;\theta) pmodel(x;θ)为一族由θ确定的在相同空间上的概率分布。
- 使用这一分布来将输入 x x x映射到实数来估计真实概率分布 p d a t a ( x ) p_{data}(x) pdata(x)
3.最大似然估计(MLE)
- 定义: θ M L = arg max θ p m o d e l ( X ; θ ) = arg max θ ∏ i = 1 m p m o d e l ( x ( i ) ; θ ) \theta_{ML}=\arg\max_{\theta} \ p_{model}(\mathbb{X};\theta) =\arg\max_{\theta} \ \prod_{i=1}^mp_{model}(x^{(i)};\theta) θML=argmaxθ pmodel(X;θ)=argmaxθ ∏i=1mpmodel(x(i);θ)
- log形式: arg max θ ∑ i = 1 m l o g p m o d e l ( x ( i ) ; θ ) \arg\max_{\theta}\sum_{i=1}^mlogp_{model}(x^{(i)};\theta) argmaxθ∑i=1mlogpmodel(x