各位朋友,我已开通微信公共号:小程在线
我会把文章及时的更新到公共号上,欢迎大家的关注。
分类器性能度量
度量 | 公式 |
精度 | (TP+TN) / (TP+FP+TN+FN) |
准确度 | TP / (TP+FP) |
召回率 | TP / (TP+FN) |
灵敏度 | TP / (TP+FN) |
特异度 | TN / (TN+FP) |
一个过拟合模型在训练数据上表现良好,但在新数据上却表现很差,称为过拟合。
来源于训练数据的模型预测误差称为训练误差。
在新数据谁给你的模型预测误差称为泛化误差。
决策树模型所做出的决策是通过累计训练数据的子集的概要。对于每个要打分的示例,模型选择决策树的一个叶子节点,并以这个叶子节点上的所有训练数据的概要做一个预测,然后以此预测作为当前示例的得分。构建决策树时需用到一些技巧,但是我们一旦得到了决策树,只需在每个叶子节点上存储一个数据概要就足够了。
K-近邻预测是基于训练数据的K个点的概要给示例打分,这k个点是距离要打分的示例最近的那些点。KNN模型通常需要储存所有的原始训练数据,而不仅是一个有效的概要。
朴素贝叶斯模型通过中间特征值记住了一部分训练数据。朴素贝叶斯模型通过建立包含若干个独立单变量模型的一个大集合,来形成决策。对于一个给定示例的朴素贝叶斯预测等于所有的可应用的单变量模型的调整值的乘积。需要注意的是,朴素贝叶斯模型在构建过程中没有使用任何巧妙的函数形式或优化步骤。