前言
本系列关注于动手学习实践机器学习知识,往期文章可到公众号首页点击查看历史文章。
本期我们来聊聊logistic回归,该方法简单优雅且兼具实用性,当前在企业界实际工作中仍有大量使用,因此对于初学者是一个比较好的上手练习。
logistic回归是咋来的
首先要说明一点,“逻辑回归” 这个翻译是非常差劲的一个翻译词汇(没办法,历史上有太多这种先入为主、劣币驱逐良币的案例了),从后面的讨论我们就会得知,该方法既不涉及逻辑学,也不是通常的回归方法,它其实是一种分类模型。周志华老师的《机器学习》一书就将该方法称为“对数基率回归”。
绝大多数机器学习图书在讲解该模型时上来就讲公式,而不讲思考过程。这一点是挺烦人的。笔者还是更喜欢遇到一个新事物多想想前人是怎么创造出来这个东西的,这里面的思考逻辑应该是什么。
为了尽量讲清楚该方法,我们先来看什么是线性模型。
线性模型是用线性判别式(决策平面为N维空间中的一个超平面)来进行分类的模型。用大白话来讲,可以想象一个高维空间中,飞过一个超级大的平面(这就是所谓的“超平面”),把空间分隔成了两部分,如此就把数据点分到了不同的