机器学习(4)-支持向量机的理解与代码实现（下）

最新推荐文章于 2023-12-18 21:59:49 发布

新名字的故事

最新推荐文章于 2023-12-18 21:59:49 发布

阅读量379

点赞数 1

分类专栏：机器学习文章标签：支持向量机 smo算法机器学习 python 算法

本文链接：https://blog.csdn.net/sabrinalx/article/details/105901468

版权

机器学习专栏收录该内容

10 篇文章 3 订阅

订阅专栏

这一篇接着上一篇机器学习(4)-支持向量机的理解与代码实现（上）继续介绍SMO算法以及对应的代码实现

支持向量机

序列最小最优化算法
代码实现

序列最小最优化算法

上一篇我们讲到将原问题的优化问题转化为求解对偶问题的最优解，最终转化为求解如下约束规划问题：
$\min_{\alpha}L(w,b,\alpha)=\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}{\alpha_i\alpha_jy_iy_jK(x_i, x_j)}-\sum_{i=1}^{N}\alpha_i\\ s.t.\quad \sum_{i=1}^{N}\alpha_iy_i=0\\0\leq\alpha_i\leq C, i=1,2,...,N$
上一篇是一个最大优化问题，这里我们对优化函数取一个负号，转化为最小优化问题。在实际运用中，随着训练数据的不断增加，上述优化问题需要求解的参数也等比例的增加，同时求解多个参数的算法将变得异常的非常和抵消，为了解决这个问题，Platt在1998年提出了SMO算法。基本思想如下：每次从要求解的参数中随机选取两个，固定其他参数，将原问题转为二元优化问题，通过零求导的梯度等于零，不断的更新参数直至所有的参数都满足KKT条件从而求得最优解。
下面详细讲解一下优化过程，不失一般性，假设我们选择的两个变量是 $\alpha_1$ 和 $\alpha_2$ ，去掉优化问题中与 $\alpha_1$ 和 $\alpha_2$ 无关的常数项(其他参数现在是固定的相当于已知量，在求导的过程中这些项的导数都为零)得到SMO需要优化的问题：
$\min\limits_{\alpha_1,\alpha_2}W(\alpha_1,\alpha_2)=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1\alpha_1\sum_{i=3}^{N}y_i\alpha_iK_{i1}+y_2\alpha_2\sum_{i=3}^{N}y_i\alpha_iK_{i2}+y_1\alpha_1y_2\alpha_2K_{12}-\alpha_1-\alpha_2\\s.t. \quad \alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^{N}\alpha_iy_i=\varsigma\\0\leq\alpha_i\leq C, i=1,2,...,N$
其中 $K_{ij}=K(x_i,x_j),$ 对于等式 $\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^{N}\alpha_iy_i=\varsigma$ 左右同乘 $y_1$ 可得 $\alpha_1=y_1(\varsigma-\alpha_2y_2)$ ,同时我们令 $v_j=\sum_{i=3}^{N}y_i\alpha_iK_{ij}$ ，将 $v_1,v_2,\alpha_1$ 代入优化目标函数可以的到一个只和 $\alpha_2$ 有关的函数：
$W(\alpha_2)=\frac{1}{2}K_{11}(\varsigma-\alpha_2y_2)^2+\frac{1}{2}K_{22}\alpha_2^2+(\varsigma-\alpha_2y_2)v_1+y_2\alpha_2v_2+(\varsigma-\alpha_2y_2)y_2\alpha_2K_{12}-y_1(\varsigma-\alpha_2y_2)-\alpha_2$
为了求得极小值我们对目标函数进行求导：
$\frac{\partial W(\alpha_2)}{\partial \alpha_2}=\alpha_2(K_{11}+K_{22}-2K_{12})+\varsigma y_2(K_{12}-K_{11})+y_2(v_2-v_1)+y_1y_2-1$
对于输入 $x$ 模型的复测输出 $f(x)=\sum_{i=1}^{N}y_i\alpha_iK(x_i,x)+b$ ，我们用 $f (x)$ 来表示 $v_1$ 和 $v_2$ :
$v_1=f(x_1)-b-y_1\alpha_1K_{11}-y_2\alpha_2K_{12}\\v_2=f(x_2)-b-y_1\alpha_1K_{12}-y_2\alpha_2K_{22}$
前面我们已经知道 $\alpha_1=y_1(\varsigma-\alpha_2y_2)$ ,代入上式可以得到：
$v_1-v_2=f(x_1)-f(x_2)+y_2\alpha_2(K_{11}+K_{22}-2K_{12})+\varsigma (K_{12}-K_{11})$
因为预测值 $f (x)$ 是根据更新前的参数得到的，我们令更新前的参数为 $\alpha^{old}$ 和 $b^{old}$ ,带求解的更新参数为 $\alpha^{new}$ 和 $b^{new}$ ,则 $v_1-v_2$ 可以用旧的参数表示，同时我们令预测值和真实值的差值为 $E_i=f(x_i)-y_i$ 将 $v_1-v_2$ 代入梯度可得：
$\begin{aligned}\frac{\partial W(\alpha_2)}{\partial \alpha_2}&=\alpha_2(K_{11}+K_{22}-2K_{12})-\alpha_{2}^{old}(K_{11}+K_{22}-2K_{12})+y_2(y_1-f(x_1))-y_2(y_2-f(x_2))\\&=\alpha_2(K_{11}+K_{22}-2K_{12})-\alpha_{2}^{old}(K_{11}+K_{22}-2K_{12})-y_2(E_1-E_2)\end{aligned}$
令梯度等于零，可得 $\alpha_2$ 的更新值为：
$\alpha_2^{new}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}, \eta=K_{11}+K_{22}-2K_{12}$
我们现在求出了 $\alpha_2$ 的更新值，但是这个是没有考虑参数的约束条件 $0\leq\alpha_i\leq C$ 的情况下，下面我们根据约束条件对参数进行裁剪,我们重新命名 $\alpha_{2}^{new}$ 为 $\alpha_{2}^{new,unc}$ ,进行裁剪后的参数为 $\alpha_2^{new}$ ,根据约束条件和 $y$ 的取值 $\alpha_2^{new}$ 的取值范围可以用如下两幅图表示：在这里插入图片描述
左图是 $y_1\not =y_2$ 的情况这个时候是一条斜率为一的线段，可以得到最小值和最大值分别为：
$L=\max(0,\alpha_2^{old}-\alpha_1^{old}), H=min(C,C+\alpha_2^{old}-\alpha_1^{old})$
当 $y_1=y_2$ 时，如右图所示，此时最小和最大值分别为：
$L=\max(0,\alpha_2^{old}+\alpha_1^{old}-C), H=\min(C,\alpha_2^{old}+\alpha_1^{old})$
根据约束条件可以得到最终 $\alpha_2^{new}$ 的表达式如下：
$\alpha_2^{new}= \left\{ \begin{array}{lr} L,&\alpha_2^{new,unc}<L\\ \alpha_2^{new,unc},&L \leq \alpha_2^{new,unc} \leq H\\ H,&\alpha_2^{new,unc}>H \end{array} \right.$
可以根据 $\alpha_2^{new}$ 可求得 $\alpha_1^{new}$ ：
$\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$
得到了更新后的 $\alpha$ ,就可以由此计算 $b^{new}$ 了，当 $0<\alpha_1^{new}<C$ 时，由KKT条件可知：
$\sum_{i=1}^{N}\alpha_iy_iK_{i1}+b=y_1$
其中除了 $\alpha_1$ 和 $\alpha_2$ 其他的都没有改变：
$b_1^{new}=y_1-\sum_{i=3}^{N}\alpha_iy_iK_{i1}-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{21}$
右边等式的前两项可以用 $E_1$ 表示为：
$y_1-\sum_{i=3}^{N}\alpha_iy_iK_{i1}=-E_1+\alpha_1^{old}y_1K_{11}+\alpha_2^{old}y_2K_{21}+b^{old}$
代入可得：
$b_1^{new}=-E_1-y_1K_{11}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{21}(\alpha_2^{new}-\alpha_2^{old})+b^{old}$
同理当 $0<\alpha_2^{new}<C$ 时：
$b_2^{new}=-E2-y_1K_{12}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{22}(\alpha_2^{new}-\alpha_2^{old})+b^{old}$
当 $0<\alpha_i^{new}<C,i=1,2$ 同时满足时，此时 $b_1^{new}$ 和 $b_2^{new}$ 是相等的，如果 $\alpha_1^{new}$ 和 $\alpha_2^{new}$ 等于C或者零时， $b_1^{new}$ 和 $b_2^{new}$ 以及他们之间的任何值都是符合KKT条件的，这时我们可以取他们的平均值

代码实现

下面就是用代码实现SMO算法训练SVM的过程，我们可以把SVM抽象为一个类，然后主要分析下在求解 $\alpha_1^{new}$ 和 $\alpha_2^{new}$ 需要用到哪些值以及需要哪些功能，把这些功能分离出来用单独的函数实现，实际使用的时候再调用，就是把功能模块化。求解过程大致可以分为一下几个模块（1）任意两个样本之间的核函数值，因为会多次用到所以可以先一次性计算出来保存好（2）预测值和真实值之间的误差，而且在训练过程中还需要不断更新，我们可以用一个向量存储所有样本的误差，及时更新（3）如何挑选 $\alpha_1$ 和 $\alpha_2$ ,就是挑选哪两个参数用来更新，具体的可以看下李航老师书上介绍的方法（4）训练SVM模型（5）对测试集进行预测，大致可以分为上面五个模块，下面是具体的代码实现：

class SVM(Model):
	"""docstring for SVM"""
	def __init__(self, C=200, trainfile='../mnist_train.csv', sigma=10):
		super(SVM, self).__init__(trainfile)
		self.C = C
		self.sigma = sigma
		self.n, self.m = self.data.shape #(samplenum, featurenum)
		self.alpha = np.zeros(self.n)
		# self.alpha = np.random.random(self.n)
		self.b = 0
		self.E = np.zeros(self.n)
		self.g = np.zeros(self.n)
		self.data, self.label = self.preprocess(self.data, self.label)
		self.kernel = self.calGaussianKernel(self.data, self.data)
		# print(self.kernel)
		self.cal_E()

	def calGaussianKernel(self, data1, data2):
		n1 = data1.shape[0]
		n2 = data2.shape[0]
		data1_1 = np.sum(data1 * data1, axis=-1, keepdims=True) # (data1·data2) inner product
		data2_2 = np.sum(data2 * data2, axis=-1, keepdims=True) # (data2·data2)
		data1_2 = np.dot(data1, data2.T)
		data = np.tile(data1_1,(1, n2)) + np.tile(data2_2.T, (n1, 1)) - 2*data1_2
		data = np.exp(-data / (2 * self.sigma**2))
		return data

	def cal_E(self):
		self.g = np.dot(self.alpha * self.label, self.kernel) + self.b
		self.E = self.g - self.label

	def IsSatisfyKKT(self, i):
		if self.alpha[i] == 0 and self.label[i]*self.g[i] >= 1:
			return True
		if 0 < self.alpha[i] < self.C and self.label[i]*self.g[i] == 1:
			return True
		if self.alpha[i] == self.C and self.label[i]*self.g[i] <=1:
			return True
		return False

	def getAlpha2(self, i):
		maxdiff = 0
		index = i
		# print(self.E)
		for j in range(self.n):
			if abs(self.E[i] - self.E[j]) > maxdiff:
				maxdiff = abs(self.E[i] - self.E[j])
				index = j
		while(index == i):
			index = random.randint(0, self.n-1)
		return index

	@calTime
	def train(self, maxiter=50):
		it = 0
		stopiter = False
		while(it < maxiter and not stopiter):
			stopiter = True
			it += 1
			# print(self.alpha)
			for i in range(self.n):
				if not self.IsSatisfyKKT(i):
					j = self.getAlpha2(i)
					# print('i is {}, j is {}'.format(i, j))
					k11 = self.kernel[i][i]
					k22 = self.kernel[j][j]
					k12 = self.kernel[i][j]
					E1 = self.E[i]
					E2 = self.E[j]
					y1 = self.label[i]
					y2 = self.label[j]
					alpha1_old = self.alpha[i]
					alpha2_old = self.alpha[j]
					b_old = self.b
					# print('alpha2_old is {}, alpha1_old is {}'.format(alpha2_old, alpha1_old))
					eta = k11 + k22 - 2 * k12
					# print('k11 k12 k22',k11,k12,k22)
					alpha2_new = alpha2_old + y2 * (E1 - E2) / eta
					# print(y2 * (E1 - E2) / eta)
					# print('y1 is {}, y2 is {}'.format(y1, y2))
					if y1 == y2:
						L = max(0, alpha2_old + alpha1_old - self.C)
						H = min(self.C, alpha2_old + alpha1_old)
					else:
						L = max(0, alpha2_old - alpha1_old)
						H = min(self.C, self.C + alpha2_old - alpha1_old)
					if L == H:
						continue
					if alpha2_new < L:
						alpha2_new = L
					elif alpha2_new > H:
						alpha2_new = H
					# print('alpha2_new after cutting is {}'.format(alpha2_new - alpha2_old))
					alpha1_new = alpha1_old + y1*y2*(alpha2_old - alpha2_new)

					b1_new = -E1 - y1*k11*(alpha1_new - alpha1_old) - y2*k12*(alpha2_new - alpha2_old) + b_old
					b2_new = -E2 - y2*k22*(alpha2_new - alpha2_old) - y1*k12*(alpha1_new - alpha1_old) + b_old

					if 0 < alpha1_new < self.C:
						b_new = b1_new
					elif 0 < alpha2_new < self.C:
						b_new = b2_new
					else:
						b_new = (b1_new + b2_new) / 2
					# print('alpha2_new is {}, alpha1_new is {}, bnew is {}'.format(alpha2_new, alpha1_new, b_new))
					self.b = b_new
					self.alpha[i] = alpha1_new
					self.alpha[j] = alpha2_new
					self.cal_E()
					if abs(alpha2_new - alpha2_old) >= 0.00001:
						stopiter = False
						# print(self.alpha)
			print('iterate {}times'.format(it))



	def preprocess(self, data, label):
		label[label>0] = 1
		label[label==0] = -1
		
		
		#不能直接 a /= 255,会报错 TypeError: No loop matching the specified signature and casting was found for ufunc true_divide
		#或者可以先将data转化为float
		data = data / 255 
		return data, label

	@calTime
	def predict(self, data):
		kernel = self.calGaussianKernel(self.data, data)
		g = np.dot(self.alpha * self.label, kernel)
		# print(g)
		return np.sign(g)

顺便记录一下自己踩过的坑，一开始模型预测准确率一直为零，无论我怎么对数据做预处理调整模型的参数（其实这个时候我就应该反思了，我怎么调整参数输出都没有改变，至少说明除了模型代码肯定还有其他地方有问题），以及检查这个算法的代码都没有任何改变。最后打印我预测值才发现输出是None，但是我的预测函数是由返回值的，然后我就意识到是装饰器的原因了，我一开始写的装饰器没有返回值，所以导致我的predict一直是None，这是我第一次自己写代码用到装饰器，果然你以为你会了和你实际会了还有很远的距离，完整的代码后期我会整理放到github上,有错误的地方欢迎大家指正~

新名字的故事

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习(4)-支持向量机的理解与代码实现（下）

这一篇接着上一篇机器学习(4)-支持向量机的理解与代码实现（上）继续介绍SMO算法以及对应的代码实现支持向量机序列最小最优化算法代码实现序列最小最优化算法上一篇我们讲到将原问题的优化问题转化为求解对偶问题的最优解，最终转化为求解如下约束规划问题：min⁡αL(w,b,α)=12∑i=1N∑j=1NαiαjyiyjK(xi,xj)−∑i=1Nαis.t.∑i=1Nαiyi=00≤αi≤C,i...
复制链接

扫一扫

专栏目录