题记:前一篇《机器学习与数据挖掘十大经典算法之PageRank算法》发表之后,有不少读者给我留言说好希望快点更新,奈何最近工作实在太忙,逻辑回归算法的介绍只能在这期电子杂志里和大伙儿见面了。
一、逻辑回归的简介
逻辑回归,英文名是logistic regression。它是一种广泛使用的机器学习算法。尽管名字中有“回归”二字,但它其实是一种二元分类算法,也就是通过已知的自变量来预测数据是属于哪个类别的(也就是,判断数据的标签是 真或假,是或否等)。
在现实生活中,也有很多二元分类问题。例如,判断一封邮件是否为垃圾邮件?判断一次金融交易是否存在欺诈嫌疑?判断肿瘤是否是良性的?
二、逻辑回归的数学思想
通过拟合一个逻辑函数/假设函数(logic function/hypothesis function)来预测一个事件发生的概率,既然预测的是概率值,那么输出结果必须在(0--1)之间。
一般线性回归的结果(即y=h(Θ,x)的结果)是连续值,取值范围也是不确定的。我们需要找到一个数学公式,将连续值转换成(0--1)之间的值。
这个转换函数就是sigmoid函数:,它的图像如下:
三、逻辑回归的算法步骤
初始化权重:即给定向量Θ的初始值,方便后续不断迭代更新。
加载数据:加载训练数据,方便拟合出假设函数
计算假设函数