逻辑回归(Logistic Regression)
优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。
适用数据类型:数值型和标称型数据。
主要思想:根据现有数据对分类边界简历回归公式,以此分类。
这也是最优化算法的一个。
Sigmoid 函数
海维赛德函数(Heaviside step function),也称单位阶跃函数。
f ( x ) = 1 1 + e − 1 f(x)=\frac{1}{1+e^-1} f(x)=1+e−11
绘图代码
import numpy as np
from math import e
from matplotlib import pyplot as plt
x=np.arange(-4,4,0.1)
y=1/(1+e**-x)
plt.xlabel('x')
plt.ylabel('y')
plt.title("Sigmoid Function")
plt.plot(x,y)
plt.show()
x=np.arange(-60,60,0.1)
y=1/(1+e**-x)
plt.xlabel('x')
plt.ylabel('y')
plt.title("Sigmoid Function")
plt.plot(x,y)
plt.show()
可以看出这是一个很好的分类函数,当函数值大于0.5时,输出为1,否则为0.
我们令输入 Z = w T x T = w 1 x 1 + w 2 x 2 + ⋯ + w n x n Z=w^Tx^T=w_1x_1+w_2x_2+\dots+w_nx_n Z=wTxT=w1x1+w2x2+⋯+wnxn
如何得到合适的权重向量w,使得分类器能准确的划分数据集?
梯度上升法
函数的导数的数学意义是函数上升和下降的快慢,我们根据导数,沿着函数上升快的方向移动,我们便能逐步接近极大值点。
w : = w + α ∇ w f ( w ) w:=w+\alpha\nabla_wf(w) w:=w+α∇wf(w)
参数w加上函数在w处的导数乘上学习率