调参和最终模型
调参
大多数学习算法都有参数(parameter)需要设定,参数设置不同,学得的模型的性能往往也不同,在进行模型评估和选择时,除了要对适用学习算法进行选择,还需要算法的参数进行设定,这就是通常所说的“参数调节”或者简称“调参”(parameter tuning)
一般选择参数的方式
对每个参数选定一个范围和步长的变化,这实际上是一种在计算开销和性能估计之间进行折中的结果。
一般做法
测试数据:学得模型在实际使用中遇到的数据
验证集:
性能度量
均方误差
对于给定的样本集合
D={(x1,y1),(x2,y2),…,(xm,ym)}
,其中
yi
是
xi
的真实标记。
要评估学习器
f
的性能,要把学习器预测的结果
在回归任务中最常用的度量方式是,“均方误差”。
对于数据分布
D
和概率密度函数
E(f;D)=∫x∼D(f(x)−y)2p(x)dx
精度和错误率
对于样本集合
D
,错误率是分类错误的样本占样本总数的比例,精度是分类正确的样本数占样本总数的比例
于是有下面的公式,
错误率:
精度:
acc(f;D)=1m∑mi=1I(f(xi=yi))=1−E(f;D)
对于数据分布
D
和概率密度函数
E(f;D)=∫x∼D(f(x)≠y)p(x)dx
acc(f;D)=∫x∼D(f(x)=y)p(x)dx=1−E(f;D)