基本原理如下:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数。而最佳拟合参数就是在训练分类器时,通过最优化算法获得。逻辑斯蒂回归是一种线性分类器,针对的是线性可分问题。
https://blog.csdn.net/lgb_love/article/details/80592147
https://blog.csdn.net/haochen233/article/details/79868125
logistic函数(由于它的图像呈S形,有时也称为sigmoid函数):
正则化:
所谓的过拟合是指——模型过于复杂,所以虽然模型在训练数据集上表现良好,但是用于未知数据(测试数据)时性能不佳。若一个模型出现了过拟合的问题,就是说这模型有高方差,可能是因为使用了相关数据中过多的参数,从而使得模型变得过于复杂。
而欠拟合是指——模型过于简单,无法发现训练数据集中隐含的模式,这也使得训练好的模型用于未知数据(测试数据)时性能不佳。
所以在回归的代价函数中加入正则项即可防止过拟合。
以下是通过Python中的sklearn模块中的鸢尾花数据对其用logistic回归进行分类。
import numpy