第二讲 机器学习分类与可能性
分类
目前多按照数据标记分类
- 输出空间
- 二元分类
- 多元分类 (离散为分类)
- 回归分析 (连续为回归)
- 结构化学习
- 数据标记
- 监督
- 非监督
- 半监督
- 增强学习 (反馈是关键)
- 目标函数
- Batch 填鸭式
- online 老师教学
- active 主动问题
机器学习的可能性
重点关注预测未知数据的能力,即泛化能力的本质
Hoeffding‘s inequality
P
[
∣
ν
−
μ
∣
>
ϵ
]
≤
2
e
x
p
(
−
2
ϵ
2
N
)
P[|\nu-\mu|>\epsilon]\leq2exp({-2}\epsilon^{2}N)
P[∣ν−μ∣>ϵ]≤2exp(−2ϵ2N)
当抽样样本
N
N
N足够大或者容忍限度
ϵ
\epsilon
ϵ宽松时,
ν
=
μ
\nu=\mu
ν=μ在概率上几乎正确(probably approximately correct,PAC).其背后的实质是大数定律,所以当样本足够大时可从样本数据推算全局。
通过对数据集的训练,我们默认从假设集合中挑选表现最好的假设
⇒
g
=
f
\Rightarrow g=f
⇒g=f,但表现好一定具有很好的泛化能力么?这么选择是否有依据?毕竟存在表现佳但泛化能力差的可能。
当数据集足够大时,
E
i
n
E_{in}
Ein与
E
o
u
t
E_{out}
Eout表现差别大的概率很小
P
[
∣
E
i
n
−
E
o
u
t
∣
>
ϵ
]
≤
2
M
e
−
2
ϵ
2
N
P[|E_{in}-E_{out}|>\epsilon]\leq2Me^{{-2}\epsilon^{2}N}
P[∣Ein−Eout∣>ϵ]≤2Me−2ϵ2N.所以每次选择表现最好的假设其泛化能力越强的可能性高,选择具有合理性。
从统计学随机抽样代表性角度类比:
在大的样本空间中随机抽样,可能存在样本对总体代表性不佳的可能,但在大数定律下,该事件属于小概率事件,即选择到代表性差的样本可行性低。
所以当 N N N足够大时,即便进行一次随机抽样,我们认为所得样本可较好的代表总体特征(小概率事件不可能定理)。