机器学习是人工智能的一个分支。机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决 定或预测”。
机器学习的主要分类:监督学习、非监督学习和强化学习
对机器学习的简单分类和其常用算法,做了初步的总结(自己初步学习,如果有缺失或不对的请留言补充)
要点补充:
-
监督学习的两种主要类型是分类和回归。
在分类中,机器被训练成将一个组划分为特定的类。
在回归中,机器使用先前的(标记的)数据来预测未来。 -
在无监督学习中,数据是无标签的。聚类用于根据属性和行为对象进行分组。
-
逻辑回归和 softmax回归都属于线性回归的推广,均可用于解决分类问题
优点:简单、易实现、效果好、易解释
LogisticRegression:逻辑回归,是一种分类算法,就是回归+Sigmoid函数。
原理是:有一些数据点,我们对这些点进行拟合,得到一条最佳拟合线,这个拟合过 程叫做回归,回归完成时得到最佳回归系数w,w是一个向量,向量维度为样本特征数+1,回归公式为:z=w0x0+w1x1+…+wnxn,这个公式就是模型的分界线,也叫判定边界,将待测样本的特征代入回归公式得到z值以后,代入Sigmoid函数,得到0或1,从而得到分类类别。当样本只有两个特征时,判定边界是一条二维平面上的直线,当样本有三个特征时,判定边界是三维空间的一个平面,当样本特征多于三个时,判定边界将会是多维的,我们统一把判定边界叫做超平面,这个概念在支持向量机中是同一个意思。步骤是:
(1)采用(随机)梯度下降/上升算法求最佳回归系数
(2)画出决策边界
(3)通过Sigmoid函数进行分类 -
DecisionTree:
决策树,通过选区最优特征划分数据集,构建一棵树,表示我们的整个决策过程。
原理是:利用已知样本数据提取出一系列规则,构造一棵决策树,利用这些规则对新数据进行分类。构造决策树时,需要找到当前数据集上哪个特征划分数据分类时能划分出最好的结果。最好的结果是指划分前,数据集混合程度较高,按某个特征划分后,多个数据集的数据混合程度较低。混合程度可以用信息熵来计算,混合程度变化量可以用信息增益来表示。构造决策树是离线的,构造完成可以用它执行分类。这里用到的是ID3算法,随着划分会消耗特征,且划分时不一定二分。(ID3、C4.5和CART是三个非常著名的决策树算法。简单地说,ID3使用信息增益作为选择特征的准则;C4.5使用信息增益比作为选择特征的准则;CART使用Gini指数作为选择特征的准则。)
步骤是:
因此,构建决策树的过程将是一个递归,递归返回的条件有三种:
(1)当前节点包含的样本属于同一类别,无需划分;
(2)当前属性集为空,或所有样本在属性集上取值相同,无法划分;
(3)当前节点包含样本集合为空,无法划分。
每一次递归就是
(1)通过计算信息增益寻找划分数据集的最好特征;
(2)划分数据集;
参考文章链接:https://blog.csdn.net/zhuanzhe117/article/details/79228406