机器学习入门总览(下)

集成学习

集成学习是机器学习中一个非常重要且热门的分支,是用多个弱分类器构成一个强分类器,核心理论就是团结力量大。一般的弱分类器可以由决策树,神经网络,贝叶斯分类器,K-近邻等构成。
集成原因:
1、模型选择 假设各弱分类器间具有一定差异性,这会导致生成的分类决策边界不同。所以它们多多少少都会有错误,于是把它们结合起来降低误差。
在这里插入图片描述
2、数据集过大或过小。
3、若决策边界过于复杂,则线性模型不能很好地描述真实情况。因此先训练多个线性分类器,再将它们集成。
4、当有多个不同数据源,且每个数据源的特征集抽取方法都不同时,需要分别训练分类器然后再集成。

集成学习的算法:
1、boosting算法。2、Bagging算法。3、Stacking算法

贝叶斯算法

贝叶斯算法或者说是贝叶斯分类,贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。
朴素贝叶斯分类算法的核心算法自然是贝叶斯公式:
在这里插入图片描述
换个简单的表示即是:
在这里插入图片描述
贝叶斯算法的最终任务就是求的p(类别|特征)。把这个p算出来,那么就可以推导出答案。
例如,假设我们有一个数据集,它由两类数据组成,c1与c2。给定某个由(x,y)表示的数据点,根据贝叶斯准则计算p(c1|x,y)与p(c2|x,y)。
若p(c1|x,y) > p(c2|x,y) ,那么该数据点属于类别c1。 若p(c1|x,y) < p(c2|x,y) ,那么该数据点属于类别c2。

聚类算法

聚类算法是“无监督学习”中最常用的一个算法,通过对无标记训练样本的学习将数据集划分成若干个不相交的子集,来解释数据的内在性质以及规律,为进一步数据分析提供基础。也可以作为一个单独的过程,寻找数据内在的分布结构。
核心:
聚类算法的核心是通过距离计算来表征两个样本之间的相似程度。一般而言,距离的度量有几个原则:
1、非负性:表明距离是非负的,这是符合实际的。
2、同一性:只有一种可能,表示两个点是重合的。
3、实际问题中,可能距离不具备这个性质,比如轿车导航路线从新校区到老校区的距离,与老校区到新校区的距离可能不等。
4、直递性:这个也是距离非常重要的一个性质,是说距离满足,三角形两边之和大于第三边。

其中一种聚类算法:
Mean Shift算法,
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

支持向量机SVN

支持向量机(Support Vector Machine,SVM)是AT&TBell 实验室的V.Vapnik等人提出的一种新型机器学习算法。支持向量机已应用于网页或文本自动分类、说话人识别、人脸检测、性别分类、计算机入侵检测、基因分类等多个场景。
SVM的主要思想是针对两类分类问题,寻找一个超平面作为两类训练样本点的分割,以保证最小的分类错误率。
SVM的基本模型
设输入模式集合{ x[i]} ∈ Rn 由两类点组成, 如果x[i]属于第1类, 则y[i] = 1 , 如果x[i]属于第2类, 则y[i] = -1 , 那么有训练样本集合{ x[i] , y[i]} , i = 1 ,2,3 , ⋯, n ,求最优分类面wx-b=0,满足:y[i](w·x[i] - b) >= 1;并使2h= 2/‖w‖最大,即min‖w‖‖w‖/2;根据对偶理论,可以通过解该问题的对偶问得到最优解,对偶问题为:

max∑α[i] – 1/2 ∑α[i]*α[j]*y[i]*y[j]*x[i]*x[j]

0≤α[i]≤C*∑α[i]*y[i]=0

其中x[i] ·x[j]表示这两个向量的内积,当对于线性不可分的情况,用核内积K(x[i], x[j])(通过核函数映射到高维空间中对应向量的内积)代替x[i] ·x[j]。根据对偶问题的解α,求得w,b ,得到最优分类面。

SVM模型求解
当训练样本向量很多、向量维数很大时,解上面的对偶问题是一个解大型矩阵的问题,采用传统的矩阵求逆无论在空间复杂度上还是在时间复杂度上都是不可取的。序贯最小优化(sequential minimal optimization,简称SMO)算法是目前解决大量数据下支持向量机训练问题的一种十分有效的方法。

以上便是机器学习大概的入门知识和算法,再都涉足了解并有一定的动手能力的时候即可开始正式的机器学习项目实战,如图像识别、文本识别、语言识别等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值