理论介绍
什么是logistic回归
logistic回归是一种基础的机器学习算法,主要用于二分类问题的机器学习模型,例如判别垃圾邮件,癌症的判别,昆虫分类等等,在本文中,我们将会以鸢尾花判别为例子对算法进行介绍及说明。我们通过对自变量的特征的计算,得到因变量的“可能值”,进而判别出其所属的类别。例如,若“可能值”为0代表着属于A品种的鸢尾花,“可能值”为1代表着属于B品种的鸢尾花(假设我们已知只有两种鸢尾花,若拿到一朵已确认为B品种的鸢尾花,那属于A品种的可能性就为0嘛),将某朵鸢尾花的特征的特征输入假设函数(logistic函数,待会我会进行介绍)中,得出“可能值”为0.85,由于他接近于1,故我们将认为他属于B品种。但值得注意的是,这里用的“可能值”并非数学意义上的概率,不可以直接当做概率值使用,因为该结果是其他特征的加权之和,并非直接相乘。
假设函数
我们一般使用的假设函数为sigmoid函数,其又称logistic函数:
g ( z ) = 1 1 + e − z g(z) = \frac{1}{1+e^{-z}} g(z)=1+e−z1
其函数曲线如下:

从上图可看出sigmoid函数是一个s型曲线,且取之于[0,1],若自变量大于0,则很快地趋近于1,反之,则很快地趋近于0.在这里,我们的自变量为鸢尾花的多个特征 x i x_{i} xi,而每个特征对于样本的判别都起到不同的作用,即会以权值 θ i \theta_{i} θi的形式“考虑”进去。则输入的自变量 z z z便为 θ T ∗ x \mathbf{\theta}^\mathrm{T}*x θT∗x,即如下:
g ( z ) = 1 1 + e − θ T ∗ x g(z) = \frac{1}{1+e^{-\mathbf{\theta}^\mathrm{T}*x}} g(z)=1+e

本文介绍了使用logistic回归对鸢尾花种类进行判别的机器学习过程。详细讲解了logistic回归的理论基础,包括sigmoid函数、决策边界、代价函数和优化算法。通过Python和Keras实现模型训练,并对数据集进行划分、模型评估和预测。
最低0.47元/天 解锁文章
1203

被折叠的 条评论
为什么被折叠?



