1.1
机器学习:通过计算的手段,改善系统性能
内容:从数据中心产生模型(这个过程称为学习或训练),即学习算法
1.2 术语
数据集:记录的集合
样本:关于一个对象事件的描述
属性、特征;属性值:属性上的取值;属性空间、样本空间
特征向量---d个属性(d维特征向量),d维样本空间
学习、训练:从数据中心学得模型的过程
模型:分类(预测离散值)-- 二分类、多分类 --无监督学习
回归(预测连续值)-- 输出空间y=R -- 无监督学习
聚类(自动形成簇cluster(组))--有监督学习
note:是否拥有标记信息--有无监督学习
预测:测试、测试样本、泛化(学的模型适用于新样本的能力)
1.3 假设空间
1、归纳(泛化):特殊到一般
note:狭义:从训练数据中学得概念;广义:从样例中学习
演绎(特化):一般到特殊
2、布尔概念:0/1
3、版本空间:一个与训练集一致的假设合集
1.4归纳偏好
1、def:机器学习算法学习过程中,对某种类型假设的偏好
什么样的模型更好
2、奥卡姆剃刀:选择最简单的(但还有其他可选原则)