西瓜书学习笔记
第一章
基本术语
- 数据集:所有瓜
- 样本/示例:一个瓜的描述(属性描述)
- 属性:瓜皮颜色
- 属性值:青绿
- 属性空间" (attribute space) /“样本空间” (samp1e space) /“输入
空间:属性张成的空间(比如"色泽” “根蒂” "敲声"作为三个坐标轴,则它们张成
一个用于描述西瓜的三维空间) - 特征向量:在属性空间的一个点,对应一个示例
- 维数:属性数量
- 样例:有标记“好瓜”的瓜
- 真相/真实:学得的模型对应的关于数据的规律
- 标记:关于示例结果的信息 如:“好瓜!”
- 分类:预测的信息是离散值
- 回归:预测的值是连续值
- 聚类:将西瓜分成若干”簇“,每簇对应的划分不是人为划分的,是我们事先不知道的
- 监督学习:训练数据有标记,如分类和回归
- 无监督学习:训练数据无标记,如聚类
第二章
基本术语
- 错误率:分类错误的样本数占样本总数的比例
- 精度:1-错误率
- 误差:学习器的实际预测输出与样本的真实输出之间的差异
- 过拟合:泛化能力下降,把训练样本自身的一些特点当作了所有潜在样本都
会具有的一般性质,在训练样本上表现很好,但是对于新样本表现欠佳 - 欠拟合·:指对训练样本的一般性质尚未学好。表现都很次
- 测试集:
- 测试误差:作为泛化误差的近似,用于模型选择
评估方法
- 留出法:将整个数据集D划分为训练集和测试集,
- 常见做法是将大约 2/3~ 4/5样本用于训练,剩余样本用测试。可平衡结果的保真性和稳定性。
- 对于样本的划分,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
- 分层采样:保留类别比例的采样方式。保证测试集和训练集的好瓜坏瓜比例基本一致
- 交叉验证:
- 将整个数据集分成k个子集,每次选1个子集作为测试集,其他k-1个作为训练集。选k次不同的测试集,进行k次训练和测试(又叫k折交叉验证)
- 另:子集通过分层采样得到,保持数据分布的一致性
- 对于子集的划分也使用:随机划分重复n次取均值
- 留一法(Leave-One-Out,LOO):若数据集中包含k个样本,划分为k个子集,则每个子集只有一个样本。结果比较准确,的那数据集比较大时,开销过大。
- 自助法
- 使用自助采样产生数据集D‘。也就是训练集和测试集都是m个样本,但是由于训练集的采样是有放回采样,所以测试集中仍有数据总量约 1/3 的、没在训练集中出现的样本用于测试。
- 自助采样:又称可重复采样或有放回采样。每次随机从中挑选一个样本,将其拷贝放入 D’ 然后再将该样本放回初始数据集 中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集 D’
- 这样的测试结果又叫包外估计(out-of-bag-estimate).
- 调参
常见做法:对每个参数选定一个范围和变化步长
性能度量
-
均方误差
-
错误率和精度
错误率:
精度:=1-错误率
-
查准率,查全率
分类结果混淆矩阵:对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划
分为TP,FN,FP,TN
查准率P和查全率R
查准率:选出的好瓜中有多少是真的好瓜的比例
查全率:真正的好瓜中有多少被选出为好瓜的比例。
查准率-查全率曲线(P-R曲线)
比较学习器的好坏:
- 若一个学习器的 P-R 曲线被另一个学习器的曲线完全"包住,则可断言
后者的性能优于前者, - 如果两个学习器 P-R 曲线发生了交叉,则是比较 P-R 曲线下面积的大小
用来综合考虑查准 查全率的性能度量
-
平衡点(Break-Event Point,BEP),查全率=查准率的点
-
F1度量,是是基于查准率与查全率的调和平均(harinonic mean)定义的:
-
-
Fβ:F1的一般形式,可以对查准率和查全率有偏好
ß>0 度量了查全率对查准率的相对重要性 ß = 1 时退化为标准的 F1; ß>1 时查全率有更大影响 ß < 1时查准率有更大影响. -
“宏查准率” (macro-P) “宏查全率” (macro-R) ,以及相应的"宏F1"
先在各混淆矩阵上分别计算出查准率和查全率,记为 (Pl, R2) , 再计算平均值
-
“微查准率”(micro-P) “徽查全率” (micro-R) 和"微F1" (micro-F1)
可先将各泪淆矩阵的对应元素进行平均,得到 TP FP TN FN平均值,再基于这些平均值计算出