AI-作业3

  • 集成学习

在机器学习的监督学习中,我们的目标是得出一个稳定的且在各个方面表现都较好的模型,但实际情况往往是我们只能得到多个有偏好的模型(即弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习的潜在思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。单个学习器我们称为弱学习器,相对的集成学习则是强学习器。

集成学习本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。

弱学习器:常指泛化性能略优于随机猜测的学习器:例如在二分类问题桑精度略高于50%的分类器。

强学习器:通过一定的方式集成一些弱学习器,达到了超过所有弱学习器的准确度的分类器。

  • 支持向量机

支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。

具体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面。在线性不可分时,加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。

(在线性可分时,如果原空间是一个二维平面,那么在二维平面中寻找最优解,如果在二维平面内不线性可分,那么可以加入变量,引入到三维空间中寻找最优解的超平面)

  • 软间隔

在现实的使用中我们不能一直假定训练样本空间或特征空间中是线性可分得,即存在一个超平面能将不同类的样本完全划分开。所以我们退而求其次,允许向量机在一些样本上出错(即引入松弛变量),进而求得一个还算不错的模型。

软间隔SVM可以解决一些硬间隔线性可分SVM面临的问题:

1.有时候数据本来是可分的,但由于混入了异常点,导致不能线性可分。

2.模型依然线性可分,但效果不好。如果不考虑异常点,则可能会得到一个很好的模型,此类异常点的存在会严重影响分类模型预测效果。

  • 核函数

        上面我们提到了将低维输入空间的样本移向高维空间,连接高维空间与低维空间的就是核函数

        将原始空间中的向量作为输入向量,并返回特征空间(转换后的数据空间,可能是高维)中向量的点积的函数称为核函数。它是映射的内积,映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数,这通常是我们希望的。

使用内核,不需要显式地将数据嵌入到空间中,因为许多算法只需要图像向量之间的内积(内积是标量);在特征空间不需要数据的坐标。

  • VC维

全称为Vapnik-Chervonenkis Dimension,它反映了模型的学习能力,VC维越大,则模型的容量越大。

    VC维的通俗定义是:对于一个指示函数集,如果存在H HH个样本能够被函数集中的函数按所有可能的2 H 2^{H}2 H种形式分开,则称函数集能够将H HH个样本打散,函数集的VC维就是它能够打散的最大样本数目H m a x H_{max}H max

​   如果对任意数目的样本,在该函数集中都能找到函数将它们打散,则称该函数集的VC维是无穷大。

   

  • 生成式模型

假设我们有训练数据(X,Y),X是属性集合,Y是类别标记。这时来了一个新的样本X,我们想要预测它的类别Y。我们最终的目的是求得最大的条件概率作为新样本的分类。

生成式模型一般会对每一个类建立一个模型,有多少个类别,就建立多少个模型。比如说类别标签有{猫,狗,猪},那首先根据猫的特征学习出一个猫的模型,再根据狗的特征学习出狗的模型,之后分别计算新样本跟三个类别的联合概率,然后根据贝叶斯公式,分别计算,选择三类中最大的[公式]作为样本的分类。

         用绵羊和山羊举例子来说:生成式模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,再放到绵羊模型中看概率是多少,哪个大就是哪个。

  • 判别式模型

依旧是上面的条件

判别式模型根据训练数据得到分类函数和分界面,比如说根据SVM模型得到一个分界面,然后直接计算条件概率,我们将最大的作为新样本的分类。判别式模型是对条件概率建模,学习不同类别之间的最优边界,无法反映训练数据本身的特性,能力有限,其只能告诉我们分类的类别。

还是绵羊和山羊的例子:判别式模型要确定一个羊是山羊还是绵羊的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。

  • 生成式模型和判别式模型各有什么优缺点

生成式模型:

对条件概率建模,学习不同类别之间的最优边界。捕捉不同类别特征的差异信息,不学习本身分布信息,无法反应数据本身特性。学习成本较低,需要的计算资源较少。需要的样本数可以较少,少样本也能很好学习。预测时拥有较好性能。无法转换成生成式。

判别式模型:

对条件概率建模,学习不同类别之间的最优边界。捕捉不同类别特征的差异信息,不学习本身分布信息,无法反应数据本身特性。学习成本较低,需要的计算资源较少。需要的样本数可以较少,少样本也能很好学习。预测时拥有较好性能。无法转换成生成式。

  • 监督学习是辨别式方法,无监督学习是生成式方法?

监督学习/非监督学习与生成模型/判别模型不是包含或被包含的关系。

要判断一个模型是属于监督学习还是非监督学习,主要看模型能接受到的数据是否包含标签,如果模型只能通过特征来学习,那么它是非监督学习;如果模型能通过特征和标签来学习,那么它是监督学习。

  • 分类是辨别式方法,聚类是生成式方法? KNN,K-means分别是什么方法

分类/聚类与判别式方法/生成式方法并无确定关系,其具体关系取决于具体的算法和模型设计。例如逻辑斯蒂回归和SVM,它们属于判别式方法,还属于分类算法;K均值和DBSCAN,属于判别式方法,还属于聚类算法。

        k近邻法是一种基本的分类和回归方法,是监督学习方法里的一种常用方法。该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。

K-Means 是发现给定数据集的 K 个簇的聚类算法,它可以发现 K 个不同的簇, 且每个簇的中心采用簇中所含值的均值计算而成。它先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值