分类问题:
评估分类器性能的指标一般是分类准确率,其定义是:对于给定的测试数据集,分类器正确分类的样本数和总样本数之比,也就是损失函数是0-1损失时候,测试数据集上的准确率。
对于二类分类问题常用的评价指标是精确率与召回率。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:
TP——将正类预测为正类数
FN——将正类预测为负类数
FP——将负类预测为正类数
TN——将负类预测为负类数
精确率定义为
P=TPTP+FP
召回率定义为
R=TPTP+FN
此外,还有F1值,是精确率和召回率的调和均值,即 2F1=1P+1R ,精确率和召回率都高时候,F1值也会高。
标注问题:
标注问题也是一个监督学习问题。可以认为标记问题是分类问题的一个推广。
标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。
标注常用的机器学习方法有:隐性马尔可夫模型、条件随机场。
自然语言处理中的词性标注(part of speech tagging)就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。
学习系统基于训练数据集构建一个模型,表示条件概率分布: P(Y1,Y2,...,Yn|X1,X2,...,Xn) 。这里,每一个 Xi 取值为所有可能的预测,每一个 Yi 取值为所有可能的标记。标注系统按照学习得到的条件概率分布模型,对新的输入预测序列找到相应的输出标记序列。具体地,即对一个观测序列 Xn+1 找到使条件概率P最大的标记序列 Yn+1 。
回归问题
回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。
回归问题的学习等价于函数拟合:选择一条函数曲线使得很好地拟合已知数据且很好地拟合已知数据且很好地预测未知数据。回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以用最小二乘法求解。