机器学习 part

一、基础

归纳:从特殊到一般的“泛化”过程,即从具体事实归结出一般性规律

演绎:从一般到特殊的“特化”过程,即从基础原理推演吃u具体状况

假设空间:色泽、根蒂、敲声分别有3、2、2种取值,则假设空间规模为 4×3×3+1 = 37

版本空间:现实问题中常面临很大的假设空间,但可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,称为“版本空间”

奥卡姆剃刀原则:若有多个假设与观察一致,则选择最简单的那个

没有免费的午餐(NFL)定理:没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法

二、模型评估与选择

1. 经验误差与过拟合

错误率(error rate):分类错误的样本数占样本总数的比例

精度(accuracy) = 1-错误率

误差(error): 学习器实际预测输出与样本的真实输出之间的差异

        a. 训练误差(training error)/经验误差:学习器在训练集上的误差

        b. 泛化误差(generalization error):学习器在新样本上的误差

过拟合(overfitting):学习器把训练样本学的“太好”,把训练样本自身特点当作潜在样本都会具有的一般性质,导致泛化性能下降(原因:学习能力过于强大;过拟合不可避免)

欠拟合(unerfitting):对训练样本的一般性质尚未学好(原因:学习能力低下)

2.评估方法

       使用测试集(testing set)测试学习器对新样本的判别能力,以测试集上的“测试误差”作为泛化误差的近似。通常假设测试样本也是从样本真实分布中独立同分布采样而得,但测试集应尽量与训练集互斥。

        只有一个包含m个样例的数据集D,从中产生出训练集S和测试集T的常见做法:

① 留出法

        直接将数据集D划分成两个互斥的集合,一个为训练集一个为测试集。划分尽量保持数据分布的一致性,避免因数据划分过程引入的额外的偏差而对最终结果产生影响(例如在分类任务重,至少要保持样本的类别比例相似,可以分层采样)

        单次留出法得到的结果往往不够稳定可靠,一般要进行若干次随机划分、重复实验评估后取平均值为留出法的评估结果。

        窘境:若训练集S包含大多数样本,则性能练出来的模型更接近用D训练的模型,T比较小,所以评估结果不够稳定准确;若训练集T多包含一些样本,则训练集S与D差别较大,降低了评估结果的保真性(fidelity)。这个问题没有完美的解决方法,一般将大约2/3~4/5样本用于训练,剩余样本用于测试。

② 交叉验证法

        先将数据集D划分成k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即从D种通过分层采样得到。每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集。得到k组训练/测试集,进行k次训练和测试,返回k个测试结果的均值。

        评估结果的稳定性和保真性在很大程度上取决于k的取值,k通常取10,也有5,20.

        为减小因样本划分不同而引入的差别,通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如10次10折交叉验证

        特例——留一法:k = m每个子集只包含一个样本。留一法的评估结果往往被认为比较准确,但数据量较大时,训练模型的开销难以忍受。

③ 自助法

        以“自助采样法(bootstrap sampling)”为基础。给定m个样本的数据集D,每次随机从D中挑选一个样本拷贝进D',过程重复m次,得到包含m个样本的数据集D'。显然,D中有一部分样本会在D'中多次出现,而另一部分样本不出现。样本在m次采样中始终不被采到的概率是(1-1/m)^m,取极限约等于0.368.将D'作为训练集,D做测试集,有1/3没在训练集中出现过的样本做测试。这样的测试结果称为“包外估计

        优点:在数据集较小,难以有效划分S/T时很有用。而且自助法能从初始数据中产生多个不同的训练集,对集成学习等方法有很大好处。

        缺点:产生的数据集改变了初始数据集的分布,会引入估计偏差。因此在初始数据量足够时,常用留出法和交叉验证法。

调参(parameter tuning)与最终模型:

        对每个参数选定一个范围和变化步长,例如在[0,0.2]范围内以0.05作为步长,实际要评估的候选参数值有5个。

        给定m个样本的数据集D,训练集是只是用了D中的一部分数据训练模型。所以在模型选择完成后,学习算法和参数配置已选定,此时应该用D重新训练模型,这才是交给用户的最终模型

3. 性能度量

        回归任务最常用的性能度量是“均方误差(mean squared error)”

错误率与精度

查准率、查全率、F1

        分类结果的混淆矩阵:                                       查准率P、查全率:

                                                          

        查准率和查全率是一对矛盾的度量。只有在一些简单任务重,查全率和查准率才会都很高

        以查准率为纵轴,查全率为横轴作图,得到P-R曲线。若有一个学习器的P-R曲线能够被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;如果曲线有交叉,则难以一般性地断言两者孰优孰劣,只能在具体的查准率或查全率条件下进行比较。也可以比较P-R曲线下面积的大小,在一定程度上代表了学习器在查准率和查全率从上取得“双高”的比例。

         平衡点(Brea

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值