基本术语
定义:
假设可以使用P来评估计算机程序在某类任务T上的性能,若一个程序通过利用经验E在T中任务上获得性能提升,就可以说关于T和P。该程序对E进行了学习。
数据集 data set
一条记录就是一个事件或对象 ------ 一个示例 instance 样本 sample
对象某方面表现或性质 ----属性 attribute 特征 feature
属性的取值 ----属性值
属性张成的空间 ----属性空间 样本空间 输入空间
数据集 D={X1, X2,…Xm}\
预测值是离散值 ----分类
预测值是连续值 ----回归
两个类别的 ----二分类 正类 反类/负类
多个类别 ---- 多分类
预测任务 一般是 通过训练集 建立从输入空间 -----> 输出空间的映射
f: X->Y
二分类 Y={1,-1} 或者 {0,1}
多分类 |Y| > 2
回归任务 Y=R R是实数集
测试 测试样本 用y=f(x)
聚类 训练集的数据分成若干组,每个组成为簇
通常 聚类学习中, 分组的信息是没有标记的
是否有标记信息 分为 监督学习 无监督学习
分类、回归任务基本就是监督学习
聚类基本就是无监督学习
泛华能力 学得的模型适用于新样本的能力