去一法虽然精细,但是重复训练次数太多,工作量太大。
x折法,经验值是5到10折,关键点是数据分布要平衡随机。
模型结构 在这里我们采用一个阈值在一个特征上进行划分。
搜索过程 在这里我们尽可能多的尝试所有特征和阈值的组合。
损失函数 我们通过损失函数来确定哪些可能性不会太差(因为我们不会去讨论完美的解决方案)。我们可以用训练误差或者其他方式定义这一点,比如我们想要最高的正确率。一般来说,人们希望损失函数最小化。
二分类和多分类
阈值分类器,是一个简单的二类分类器,由于数据点不是高于阈值就是低于阈值,所以分类结果不是第一个类,就是第二个类.
我们可以将多分类问题细化成一系列二分决策:是1还是其它。
作为另外一种选择,我们还可以构建一个分类树。将每一个可能的标签分成两段,然后构建一个分类器判断“样本应该向左走还是向右走”。我们可以对标签递归地切分,直到得到一个单一标签
大多数分类器都是二分类系统,而很多现实问题天然就是多类别的。通过一些简单方法,我们可以把多分类问题细化成一系列二分类决策,在多分类问题中使用二分类模型。