机器学习与数据挖掘 第二讲 机器学习分类与可能性

第二讲 机器学习分类与可能性

分类

目前多按照数据标记分类

  • 输出空间
  1. 二元分类
  2. 多元分类 (离散为分类)
  3. 回归分析 (连续为回归)
  4. 结构化学习
  • 数据标记
  1. 监督
  2. 非监督
  3. 半监督
  4. 增强学习 (反馈是关键)
  • 目标函数
  1. Batch 填鸭式
  2. online 老师教学
  3. active 主动问题

机器学习的可能性

重点关注预测未知数据的能力,即泛化能力的本质

Hoeffding‘s inequality P [ ∣ ν − μ ∣ > ϵ ] ≤ 2 e x p ( − 2 ϵ 2 N ) P[|\nu-\mu|>\epsilon]\leq2exp({-2}\epsilon^{2}N) P[νμ>ϵ]2exp(2ϵ2N)
当抽样样本 N N N足够大或者容忍限度 ϵ \epsilon ϵ宽松时, ν = μ \nu=\mu ν=μ在概率上几乎正确(probably approximately correct,PAC).其背后的实质是大数定律,所以当样本足够大时可从样本数据推算全局。
通过对数据集的训练,我们默认从假设集合中挑选表现最好的假设 ⇒ g = f \Rightarrow g=f g=f,但表现好一定具有很好的泛化能力么?这么选择是否有依据?毕竟存在表现佳但泛化能力差的可能。
当数据集足够大时, E i n E_{in} Ein E o u t E_{out} Eout表现差别大的概率很小 P [ ∣ E i n − E o u t ∣ > ϵ ] ≤ 2 M e − 2 ϵ 2 N P[|E_{in}-E_{out}|>\epsilon]\leq2Me^{{-2}\epsilon^{2}N} P[EinEout>ϵ]2Me2ϵ2N.所以每次选择表现最好的假设其泛化能力越强的可能性高,选择具有合理性。

从统计学随机抽样代表性角度类比:
在大的样本空间中随机抽样,可能存在样本对总体代表性不佳的可能,但在大数定律下,该事件属于小概率事件,即选择到代表性差的样本可行性低。
所以当 N N N足够大时,即便进行一次随机抽样,我们认为所得样本可较好的代表总体特征(小概率事件不可能定理)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值