一、引言
机器学习主要是解决什么问题:
通过计算的手段,利用经验来改善系统自身的性能
我们有了数据
→
\to
→ 通过某种学习算法
→
\to
→ 得到模型
→
\to
→ 进行预测
二、基本术语
(一)数据
数据集:100个西瓜
样本:1个西瓜
特征向量:
(1)样本空间
(2)颜色、大小、敲起来的振幅
(3)维度
属性:颜色
(二)学习算法
通过某种学习算法去学习
(三)得到模型
有监督学习
(1)分类
二分类:就只有两个可能,例如在瓜农眼中这个瓜该不该摘,只有两个结果一个是摘一个是不摘。
多分类:Y大于二,例如我们在市场上买西瓜:有黑美人、小地雷、特小凤
(2)回归
Y=R实数集
无监督学习
当我们不知道分几类的时候,让机器自己分,每一组称为”簇“cluster
(四)进行测试
测试样本
泛化能力——得到的模型适用于新样本的能力
三、假设空间
科学的推理手段:
归纳:特殊到一般
(1)狭义:从训练数据中得到概念
(2)广义:从样本中学习
演绎:从一般到特殊
四、归纳偏好
当我们用同一个数据集训练出不同的模型,该如何选择模型
选择原则:奥卡姆剃刀原则——选择最简单的那个