1 机器学习含义:通过计算机来分析数据的规律并利用其处理数据
2 机器学习:分为有监督和无监督
有监督:有训练数据,已知目标变量(明确知道目标)分为:分类和回归
无监督:有训练数据,目标变量未知(在学习过程中探索目标)分为:聚类,密度估计
3 目标变量:标称型:分类中应用
连续型: 回归中应用
4 样本集:训练数据和测试数据,相互独立
5 各类算法的用途:
监督学习: 分类器 k-近邻 朴素贝叶斯
无监督学习: k-均值 DBSCAN
6 选择算法:1 目的任务 2 数据:离散、连续、缺失、异常、频率
预测目标变量的值--有监督否则无监督
有监督:目标变量离散--分类,否则--回归
无监督:数据是否要划分离散组,是且唯一:聚类,如果还要估计数据与分组的相似程度,则密度估计
7 机器学习步骤:
1)收集数据 2)调整数据 3)分析数据 4)训练算法 5)测试算法6)使用算法
(无监督学习4和5步骤合并)
小白入门书籍: 机器学习实战--peter harrington