前引
此文是观看哈尔滨工业大学《深度学习基础》课程的笔记。
文章图片和文字皆为课件内容,并非原创。
课堂链接->link
概念
机器学习(Machine Learning)是对研究问题进行模型假设,利用计算机从训练数据中学习得到模型参数。并最终对数据进行预测和分析的一门学科。其基础主要是归纳和统计。
深度学习(Deep learning)是一种实现机器学习的技术, 是机器学习重要的分支。其源于人工神经网络的研究。深度学习的模型结构是一种含多隐层的神经网络。通过组合低层特征形成更加抽象的高层特征。
数据集及其拆分
数据集的数学表示
类别标签的标准
- Gold standard:公认标准
- Ground truth:直接观察的真实结果
数据集与有监督学习
- 有监督学习中数据通常分成训练集、测试集两部分。
训练集(training set)
- 训练集用来训练模型,即被用来学习得到系统的参数取值。
测试集(testing set)
- 测试集用于最终报告模型的评价结果,因此在训练阶段测试集中的样本应该是unseen的。
训练集测试集拆分
留出法
步骤
- 将数据随机分为两组,一组做为训练集,一组做为测试集。
- 利用训练集训练分类器,然后利用测试集评估模型,记录最后的分类准确率为此分类器的性能指标。
特点
- 留出法的优点是处理简单。
- 不足之处是在测试集上的预测性能的高低与数据集拆分情况有很大的关系,所以基于这种数据集拆分基础上的性能评价结果不够稳定。
K折交叉验证
步骤
- 数据集被分成K份(K通常取5或者10)。
- 不重复地每次取其中一份做测试集,用其他K‐1份做训练集训练,这样会得到K个评价模型。
- 将上一步得到的K次评价的性能均值作为最后评价结果。
特点
- K折交叉验证有助于提高评估结果的稳定性。
- 运用了分层抽样策略(Stratified k‐fold):将数据集划分成k份,特点在于,划分的k份中,每一份内各个类别数据的比例和原始数据集中各个类别的比例相同。
网格搜索调整超参数
超参数
- 指在学习过程之前需要设置其值的一些变量,而不是通过训练得到的参数数据。如深度学习中的学习速率等就是超参数。
网格搜索
- 假设模型中有2个超参数:A和B。 A的可能取值为{a1, a2, a3},B的可能取值为连续的,如在区间[0‐1]。由于B值为连续,通常进行离散化,如变为{ 0, 0.25, 0.5, 0.75, 1.0}。
- 通过比较每一对超参数取值,得到最高性能的超参数对。
步骤
- 确定评价指标。
- 对于超参数取值的每种组合,在训练集上使用交叉验证的方法求得其K次评价的性能均值。
- 最后,比较哪种超参数取值组合的性能最好,从而得到最优超参数的取值组合。
分类及其性能度量
分类
分类的机器学习的两大阶段:
- 从训练数据中学习得到一个分类决策函数或分类模型,称为分类器(classifier)。
- 利用学习得到的分类器对新的输入样本进行类别预测。
性能度量
准确率(accuracy)
公式
特点
- 是对整体预测性能的判定。
- 无法针对假阳(阴)性错误FN(P)选择更好的模型。
- 难以衡量正例的分类效果。
精确率(precision)和召回率(recall)
公式
特点
- 精确率反映了模型判定的正例中真正正例的比重。
- 召回率反映了总正例中被模型正确判定正例的比重。
P-R曲线
公式
特点
- P、R值往往此消彼长,无法同时得到最高值。
- Area有助于弥补P、R的单点值局限性,可以反映全局性能。
绘制
- 从高到低将每个测试样本的score排序,并且依次作为阈值threshold。
- score大于等于阈值的测试样本作为正例P,否则作为反例N。
F值()
- F值(𝑭𝜷-𝒔𝒄𝒐𝒓𝒆)是精确率和召回率的调和平均。
公式
- 𝛽反应精确率和召回率之间的偏向。
- 𝛽一般大于0,当𝛽=1时,退化为F1,表示两者同等重要。
ROC(受试者工作特征曲线)
- 描绘了分类器在𝑡𝑝 𝑟𝑎𝑡𝑒(真正正例占总正例的比率,反映命中概率,纵轴)和𝑓𝑝 𝑟𝑎𝑡𝑒 (错误的正例占反例的比率,反映误诊率、假阳性率、虚惊概率,横轴) 间的trade‐off。
- 横轴:假正例率 𝑓𝑝 𝑟𝑎𝑡𝑒 = FP/N
- 纵轴:真正例率 𝑡𝑝 𝑟𝑎𝑡𝑒 = TP/P
标准
- ROC‐ AUC(Area Under Curve)定义为ROC曲线下的面积。
- 取值范围为[0,1],越接近1分类器越好。
绘制
- 从高到低将“Score”值排序并依此作为阈值threshold。
- 对于每个阈值,“Score”值大于或等于这个threshold的测试样本被认为正例,其它为负例。从而形成一组预测数据。
特点
- 反映了正确预报和错误预报的关系。
回归问题及其性能评价
回归问题(regression analysis)
- 回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
性能度量方法(Regression Metrics)
平均绝对误差MAE(Mean absolute error)
- MAE是绝对误差损失 (absolute error loss)的期望值。
均方误差MSE(Mean Squared Error)及均方根差RMSE(Root Mean Squared Error)
- MSE该指标对应于平方误差损失的期望值。
- 均方根差RMSE是MSE的平方根.
应用
Logistic回归损失(二类)
- 简称Log loss,或交叉熵损失(cross‐entropy loss)。
公式
举例
Logistic回归损失(多类)
- 对于多类问题(multiclass problem), 可将样本的真实标签(true label)编码成1‐of‐K(K为类别总数)的二元指示矩阵Y。
- 如K=3时
公式
- 其中𝑦i,k表示第 i 个样本的第 k 个标签的真实值,注意由于表示为“1‐of‐K”模式, 因此每个样本只有其中一个标签值为1,其余均为0。 𝑝i,k表示模型对该样本的预测值。
举例
- K为3,样本数为6:
一致性的评价方法
一致性评价
- 是指对两个或多个相关的变量进行分析,从而衡量其相关性的密切程度。
评价方法
皮尔森相关系数
公式
- 其中,𝑐𝑜𝑣 (𝑋, 𝑌) 表示𝑋 和𝑌之间的协方差(Covariance), 𝜎x
是𝑋的均方差, 𝜇x是𝑋的均值, 𝐸表示数学期望。
- 取值区间为[‐1,1]。
- ‐1: 完全的负相关,+1: 表示完全的正相关,0: 没有线性相关。
特点
- 用来衡量两个用户之间兴趣的一致性。
- 用来衡量预测值与真实值之间的相关性。
- 既适用于离散的、也适用于连续变量的相关分析。
Cohen’s kappa相关系数
公式
- 𝑷𝑜为两者一致性概率,𝑷𝑒为随机一致性概率。
举例
特点
- 与pearson相关系数的区别:Cohen‘s kappa 相关系数通常用于离散的分类的一致性评价。
- 其通常被认为比两人之间的简单一致百分比更强壮,因为Cohen‘s kappa考虑到了二人之间的随机一致的可能性。
标准
Fleiss Kappa相关系数
举例
- 以上是14个评价者对10个item进行5级评价的结果(N = 10,n = 14, k= 5)。
- 横轴为评价的级数,可以认为是k个类。
- 纵轴为评价的物品数。
步骤
- 对每一列计算𝑷𝒋,即同列数据相加除以任务总数 。 𝑷𝒋可以理解为每个分类的随机一致概率。
- 计算𝑷𝒊,即对每一个标注任务进行实际一致性的计算。
- 根据得到的𝑷𝒊和𝑷𝒋,计算𝑷𝑜和𝑷𝑒。
- 带入公式计算Fleiss Kappa系数。
公式