机器学习算法(1)

监督学习

监督学习是目前运用最广泛的一种方法。如BP神经网络、决策树。监督学习通过训练既有特征又有鉴定标签的训练数据,让机器学习特征与标签之间产生联系。在训练好之后,可以预测只有特征数据的标签。监督学习可分为回归(Regression)分析和分类(Classification)。

​ 回归分析:对训练数据进行分析,拟合出误差最小的函数模型y=f(x),这里的y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y。

​ 分类:训练数据是特征向量与其对应的标签,同样通过计算新的特征向量得到所属的标签。

监督学习算法

KNN算法

​ KNN,K近邻算法,根据不同特征值之间的距离来进行分类的ML算法。该算法的主要应用领域是对未知事物进行分类(判断未知事物属于哪一类)。KNN也可用于回归,通过找出一个样本的k个最近邻居,将这些邻居属性的平均值赋给该样本,就i可以得到该样本的属性。

​ KNN算法的原理是:将测试数据的特征与训练集中对应的特征进行比较,找到训练集中最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。

支持向量机(SVM)

SVM算法是基于统计学习理论的一种方法,它通过寻求结构化风险最小化来提高学习器的繁华能力,实现经验风险和置信范围的最小化,从而达到在样本较少的情况下也能获得良好统计规律的目的。如今常用于对小样本、非线性及高维数据进行模式识别、分类以及回归分析,并能取得良好效果。

​ SVM是一个二分类的分类模型。给定一个包含正反例(正负样本点)的样本集合,SVM会寻找一个超平面来对样本进行分割,把样本中的正反例用超平面进行分开,并使正反例之间的间隔最大。(一般将任何维的分类边界都称为超平面)

SVM算法是针对线性可分情况进行分析;对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间线性可分,从而使得对样本的非线性特性进行线性分析称为可能。SVM算法以结构风险最小化在特征空间中构建最优分割超平面,使得学习器得到全局最优。

​ SVM学习的目标是在特征空间内找到**一个分类超平面 **w x + b = 0 {\bold w}x+b=0wx+b=0,分类超平面将特征空间划分为两部分(正类、负类)。

朴素贝叶斯分类(Nave Bayes)

对于朴素贝叶斯来说:最重要的就是它把每个输入变量都设为独立的。

​ 假设有训练数据集合,其中特征向量X = ( x 1 , x 2 , ⋅ ⋅ ⋅ , x n ) X=(x_1,x_2,···,x_n)X=(x1​,x2​,⋅⋅⋅,xn​)对应分类变量y,可以使用贝叶斯理论:P(y∣X)=P(X∣y)P(y)P(X)。朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

朴素贝叶斯分类常用于文本分类,尤其是对于英文等语言来说,分类效果很好。它常用于垃圾文本过滤、情感预测、推荐系统等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值