1.模型
带^的是最优值 不带^的是所有的假设空间中的值
找最优θ的问题
找条件概率的方式也是同理
2.策略
模型评估和模型选择
带^的是训练集上的经验风险,训练集上的经验风险和期望风险之间差值用一个误差delta可以控制 (N样本量 d备用模型个数 delta)
生成模型还需要考虑X,Y的联合分布,在判别方法中不去考虑X是不是随机的,但是在生成方法中X,Y是随机的
回归问题得到的值是连续的值,分类是离散的值
极大似然估计和贝叶斯估计
在已经有了θ,根据实验结果写出出现这个结果的概率
联合概率可以用连乘的形式,因为几个概率之间都是相互独立的,所以可以写成连乘的形式
根据样本的概率分布 写出样本联合概率的似然函数 然后最大化似然函数 求出联合概率的估计值,极大似然估计只用到了样本信息。
贝叶斯估计
除了样本信息还要用到先验信息
在估计之前已经有了θ一个先验的取值 假设其分布满足β分布 有了一个概率密度函数
样本量大的情况两者类似,样本量小的情况贝叶斯估计更好 比如1
贝叶斯估计例题
分母全概率如果是离散的就是求和 连续的就是求积分
极大似然估计例题
连乘的原因:假设独立同分布
为什么是概密函数而不是概率 因为某个点的概率等于面积 常数项没影响所以可以用概率密度来替代