原始形式和对偶形式是从两个方面去计算梯度下降的问题,两种方法找误分点的个数是一样的,区别在于,找到一个误分点时两者接下来的计算方法:(N为训练集大小,n为特征数量)
(1)对偶形式:扫一遍N,计算每条数据在之前被加了几(ai)次(当η取1时,ai相当于第i组数据的梯度xiyi被加了几次,找到一个误分点后直接加上,而不是每次加),因为xixj已经被提前计算在Gram矩阵中,所以每次是O(1),那么扫一遍N就是O(N)。
(2)原始形式:每次计算w*x,计算此内积复杂度为O(n)
所以看下来,选择哪种计算方法取决于训练集和特征数量的大小。