不确定性的来源
噪声:测量的可变性、部分可观测性、不正确标签
有限的样本量:训练和测试数据是随机抽取的实例
处理不确定性的方法
模糊逻辑、定性推理
#随机变量
随机变量是一个函数,将唯一的数值和实验每个结果相关联
离散概率分布
连续概率分布
一般概率用牛顿莱布尼兹法计算
统计特征
- 期望、方差
一维高斯(法向)密度
- 中心极限定理
- 独立性
P(A ∩ B) = P(A) * P(B) - 条件概率
条件独立性:
贝叶斯公式:
贝叶斯的更多形式:
- 联合和边缘概率
联合概率:用链式法则和独立性假设来计算 - 密度估计
密度估计器学习从一组属性带概率的映射,若分布形式是指定的(二项式、高斯。。。),通常被称作高斯分布
重要问题:数据的性质(是否相关,。。。);目标函数(MLE、MAP)、算法(简单代数、梯度法、EM)
评价方案(数据的似然性,可预测性,一致性)
从iid(独立同分布)学习参数:
目标:从独立同分布中D = {x1, . . . , xN}估计分布参数θ
最大似然估计(MLE):在独立同分布和完全可观测性假设下可写作:
选择最能保证我们数据的参数集合
- 过度拟合
若投几次硬币全是朝上,那么下次预测应该是向上吗?
所以我们采用平滑的方法:
-
贝叶斯法则
-
迪利克雷分布
-
MAP和MIE的对比