常见算法分类
算法:是利用计算机解决待定问题的处理步骤,是有限操作的稽核。
常见机器学习算法分类:按照学习方式不同进行分类,根据学习样本数据不同,对问题有不同的建模方式。 常见的有监督式学习(学习样本中有结果标记)、无监督学习(学习样本中无结果标记)、半监督学习(学习样本中部分记录有结果标记);
有监督学习:利用一组已知类别的样本来训练模型,使其能达到性能要求。特点为输入数据(寻训练数据)均有一个明确的标识或结果(标签)。即我们提供样例“教”计算机如何学习;
无监督学习:从无标记的训练数据中推断结论。其特点为输入数据(训练数据)不存在明确的标识或结果(标签)。常见的无监督学习为聚类,即发现隐藏的模式或者对数据进行分组。即计算机根据我们的提供的材料“自动”学习,给定数据,寻找隐藏的结构或模式;
分类(Classification):通过已有数据集(训练集)的学习,得到一个目标函数f(模型),把每个属性集x映射到目标属性y(类),且y必须是离散的(若y为连续的,则属于回归算法)。通过对已知类别训练的分析中,从中发现分类规则,以此预测新数据的类别;
按原理分类:基于统计的:如贝叶斯分类;基于规则的:如决策树算法;基于神经网络的:神经网络算法;基于距离的:KNN(K近邻算法);
常用评估指标:精确率:预测结果与实际结果的比例;召回率“预测结果中某类结果的正确覆盖率;F1-Score:统计量,综合评估分类模型,取0-1之间;