一、多元分类
1. one-vs-all:选择得分最高的类别
有几个类别建立几个分类器,单个分类器只识别一个类别。
classifierA | classifierB | classifierC | classifierD | |
positive | 0.56 | 0.96 | 0.22 | 0.11 |
negtive | 0.44 | 0.04 | 0.78 | 0.89 |
上面表格对应的样例的分类结果为class B。
2. one-vs-one:
设有n个类别,则会针对两两类别建立二项分类器,得到k=n*(n-1)/2个分类器。对新数据进行分类时,依次使用这k个分类器进行分类,每次分类相当于一次投票,分类结果是哪个就相当于对哪个类投了一票。在使用全部k个分类器进行分类后,相当于进行了k次投票,选择得票最多的那个类作为最终分类结果。
二、欠拟合和过拟合
1. 欠拟合:模型模拟有很大的偏差(bias)
2. 过拟合:模型完全符合训练数据,但在新的数据上表现不佳
过拟合的解决方法:
- 减少变量数量,需要筛选特征变量,舍弃变量意味着信息丢失。(人为选择或者模型选择)
- 正则化,保留所有变量。