写在前面,之前都是零零散散的学习机器学习算法,现在准备进行系统的整理学习。
算法:
定义:是利用计算机解决特定问题的处理步骤,是有限操作的集合。
分类
按照学习方式不同进行分类:根据学习样本数据不同,对问题有不同的建模方式。
1. 监督学习
学习样本中有结果标记。
利用一组已知类别的样本来训练模型,使其达到性能要求。(训练数据有标签)
监督算法
分类:Classifiction
通过已有数据集的学习,得到一个目标函数f,把每个属性集x映射到目标数据y,且y必须是离散的(若y为连续的,则属于回归算法)。通过对已知类别训练集的分析,从中发现分类规则,以预测新数据的类别。
回归:Regression
连续则会回归。
按原理分类:
基于统计: 贝叶斯
基于规则:决策树
基于神经网络:神经网络算法
基于距离:KNN
常用评估指标
精确率:预测结果与实际结果比例
召回率:预测结果与某类结果的正确覆盖率
F1-Score:统计量,综合评估分类模型,取值0-1之间
KNN算法
伪代码
repeat
计算已知类别数据集中的点与当前之间的距离
按照距离增次序排序
until 样本点遍历完成
返回前k个样本点
统计k个样本点中出现频率最高的类别标签
决策树
构建流程
其他常见算法
2. 无监督学习
学习样本中无结果标记。
从无标记的训练数据中推断结论。(训练数据无标签)
聚类算法
K-Means
3.半监督学习
学习样本中部分记录有结果标记
其他学习算法