判别方法:由数据直接学习决策函数,或者由条件分布概率作为预测模型的为判别模型。常见的判别模型有:线性回归、boosting、SVM、决策树、感知机、线性判别分析(LDA)、逻辑斯特回归等算法。
生成方法:由数据学习x和y的联合概率密度分布函数,然后通过贝叶斯公式求出条件概率分布作为预测的模型为生成模型。常见的生成模型有朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型(LDA)等。
回归问题常用的性能度量指标:
均方误差:
均方根误差:
和方误差:
平均绝对误差:
平均绝对百分比误差:
平均平方百分比误差:
决定系数:
,其中
分类问题常用的性能度量指标:
预测为真 | 预测为假 | |
正样本 | TP(真正例) | FN(假负例) |
负样本 | FP(假正例) | TN(真负例) |
精确率
召回率
正确率(准确率) ,被分对的样本数除以所有样本数。
错误率
真正例率:正例被判断为正例的概率,
假正例率:负例被判断为正例的概率,
精确率又称查准率,适用于对准确率要求高的应用;召回率又称查全率,适用于检测信贷风险信息、逃犯信息等。由于精确率和召回率是一对矛盾的度量,所以需要找一个平衡点,是精确率与召回率的调和平均值:
ROC曲线:中文名叫做受试者工作特征曲线。
ROC曲线的主要意义是方便观察阈值对学习器的泛化性能影响,所以有助于选择最佳的阈值。ROC曲线越靠近左上角,模型的查全率就越高。最靠近左上角的ROC曲线上的点时分类错误最少的最好阈值,其假正例和假反例总数最少。