读《机器学习》笔记

一、绪论:

(1)    首先介绍一些基本术语.

(2)    假设空间

(3)    归纳偏好

(4)    发展历程:

ILP:归纳逻辑程序设计问题,由于对知识领域进行精化和增强,假设空间太大,复杂度太高,问题规模稍大就难以有效进行学习.

符号主义学

推理期和知识期:介绍了决策树被经常使用原因;

后来九十年度出现了支持向量机SVM以及核方法.连接主义和统计主义之间的发展联系,连接主义一开始占据上风,后来,以统计学习理论为技术的统计主义占据上风,2000年以来,连接主义又卷土重来,以深度学习为代表.在复杂的语音和图像复杂对象的应用中,深度学习技术取得了优越性能。由于数据储量和计算设备的大力发展,为连接主义学习技术换发了一春。

(5)    应用现状:机器学习渗透各个领域。只要涉及数据获取、数据管理、数据分析、仿真实验等环节,机器的舞台就少不了。当然,数据挖掘除了数据库、机器学习和统计学九十年代影响最大。机器学习建立关于学习的计算模型促进我们理解“人类如何学习”,SDM模型的提出。自然科学研究的驱动力归结起来就是人类对宇宙本源、万物本质、生命本性、自我本识的好奇,而人类如何学习称为自我本识的重大问题。奥卡姆剃刀原则主张选择与经验观察一致的最简单假设。

二、模型评估与选择:

1)        经验误差与过拟合。

错误率。精度。误差。训练误差或者经验误差。泛化误差。过拟合、欠拟合问题。

测试集、测试误差。用老师出了10道题这个问题,然后又用10道题来考试的问题。

样本的分割:留出法,比率一般为2/8或3/7.交叉验证法:10折交叉验证。留一法,模型太多,样本少可以。自助采样(放回)booststrapping,不断地随机抽取,达到一定数量。性能度量问题:反映了任务需求。性能度量问题中均方误差概念。

查准率、查全率与F1。引入了真正例、假正例、真反例、假反例四中情形。可以用混淆矩阵来表示。给出了查准率和查全率的计算公式。提出了P-R图。平衡点问题。实际过程中,查全率和查准率存在很多的不同影响因子。实际中,我们希望通过多次平均来

衡量查全率和查准率。提出了宏查准率和宏查全率以及加权调和平均问题。

ROC与AUC。ROC:针对真正例率、假正例率进行刻画的曲线。绘图过程:给定m个正例和n个反例,根据学习器预测结果对样例进行排序,然后把分类阈值设为最大,即把所有样例都预测为反例,此时真正例率和假正例率均为0,在坐标(0,0)处标记为一个点。然后,将分类阈值一次设为每个样例的预测值,即依次将每个样例划分为正例。当然,我们也可以相反,为了创建ROC曲线,首先要将分类样例按照其预测强度排序。先从排名最低的样例开始,所有排名更低的样例都被判为反例,而所有排名更高的样例都被判为正例。该情况的对应点为<1.0,1.0>。然后,将其移到排名次低的样例中去,如果该样例属于正例,那么对真阳率进行修改;如果该样例属于反例,那么对假阴率进行修改。

         AUC就是ROC下面的面积。

     代价敏感错误率与代价曲线。非均等代价。

         统计假设检验为我们进行了学习器性能比较提供了重要依据。基于假设检验结果我们可以推断出,若在测试集上观察到学习器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。

         假设检验中的假设是对学习器泛化错误率分布的某种判断或猜测。泛化错误率的概念。

         比较检验。

偏差与方差。 

第3章线性模型

基本形式: f(x)=wTx+b其中w和b学习训练之后,模型得以确定。

线性模型简单易于实现,当然引入层级结构或者高维映射以后,功能更加强大。

线性模型具有很好的解释性。

线性回归问题:linear regression。首先数值化,基本方法枚举型,直接使用离散数据,且连续整数,一般从0开始,这样便于后面进行管理。

线性回归的系数,我们可以通过最小二乘法来进行误差评估。最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。为了参数估计,导数来帮忙。

如果XTx为满秩矩阵或正定矩阵时,w*=(XTX)-1XTy.

如果XTx不为满秩矩阵或正定矩阵时,这时引入正则化项。

线性模型有很多衍生模型。

比如:对数衍生模型。广义线性模型。对数几率回归模型。引入了sigmod函数,它在回归和神经网络中,大有用武之地!

   逻辑回归不需要事先假设数据分布,避免了假设分布不准确问题。又由于对数函数是任意阶可导的凸函数,有很好的数学性质,很多算法都引入,求取最优解。

         另外,我们也可以通过极大似然法(maximum likelihood method)来估计w和b,给定数据集对率回归模型最大化“对数似然”。即每个样本属于其真实标记的概率越大越好。

         后面,提出了如何计算参数问题,讨论了导数求解方法。

        线性判别分析是一种经典的线性学习方法,在二分类问题,也称为:Fisher判别分析。

         LDA的思想就是通过投影来判断,如果距离相近,那么,它们就判为同一类。

         给定数据集,分别计算类示例的集合、均值向量、协方差矩阵,若将数据投影到直线w上,则两类样本的中心在直线上的投影分别为:WTu0和WTu1,若所有样本点都投影在直线上,则两类样本的协方差分别标记出来。为了让同类投影点最近,异类投影点最远,考虑最大化目标J。

         多分类学习。

方法是拆分策略,即将多分类任务拆分为若干个二分类任务求解。先对问题进行拆分,然后为拆分的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。

最经典的拆分策略有三种:一对一、一对其余、多对多策略。

一对一策略:OVO将N个类别两两配对后,投票产生。

一对其余策略:OVR,将一个类作为正例,其他作为反例。这样训练N个分类器。比如:以C1、C2、C3、C4为例,第一次,C1为正例,其他为反例时,预测结果为反例;第二次,C2为正例,其余为反例,预测结果依然为反例;第三次C3为正例时,其余为反例,这时预测为正例;第四次C4为正例时,其余为反例。综合以上意见,可以看出分为类别C3可信度更高。

MVM是每次都将若干个类作为正例,若干其他类作为反例。当然,不能随意选择,就使用了最常用的技术:纠错输出码,即ECOC。

思路是:编码:对N个类别做M次划分,每次划分将一部分类别划分为正例,一部分划分为反例,从而形成了一个二分类训练集,这样形成了一个二分类训练集;这样一共产生了M个训练集,可以训练出M个分类器。

解码:M个分类器分别对测试样本进行预测,这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。

这种通过编码矩阵的思想来实现,有很大的可行性。

       类别不平衡问题。如果不同类别的训练样例数目差别很大,会怎么样呢。

      再缩放思想。首先基于训练集是真实样本总体的无偏采样,这个假设并不成立。如果做不到,可以有三种方法:

(1)      使用欠采样方式;

(2)      使用过采样方式。比欠采样时间开销要大。

(3)      阈值移动方式。直接基于原始训练集进行学习,在用训练好的分类器进行预测时,将类别样本(正反例)数目的比值或者正反例的误判率比值嵌入到决策过程中。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值