Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可由最优化算法来完成,一般采用梯度上升算法,此算法又可简化为随机梯度上升算法。简化前后的算法效果相当,但占用更少的计算资源。并且随机梯度上升算法是一个在线算法,可在新数据到来时就完成参数的更新,而无需重新读取整个数据集来进行批处理。机器学习的一个重要问题是处理缺失数据,处理方法取决于实际需求。
假设有一些数据点,可用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合的过程就成为回归。Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。
训练分类器用于寻找最佳拟合参数,也称为最佳的分类回归系数。Logistic需要距离计算,因此要求数据类型为数值型,结构化数据格式最佳。
海维赛德阶跃函数(Heaviside step function)也称为单位阶跃函数,此函数的问题在于在跳跃点上从0瞬间跳跃到1,这很难处理。而Sigmoid函数,也具有类似的性质,计算公式如下:
σ(z)=11+e−z为了实现Logistic回归分类器,可以在每个特征上都乘以一个回归系数,然后把所有的结果相加,将这个总和代入Sigmoid函数中,进而得到一个范围在0~1的数值。大于0.5分入1类,否则归入0类。
Sigmoid函数的输入记为 z ,有下面公式得出:
z=w0x0+w1x1+w2x2+...+w
[完]机器学习实战 第五章 Logistic回归(Logistic Regression)
最新推荐文章于 2023-10-03 09:09:10 发布