1. 线性回归的缺点
- 对于只有两种输出情况的问题(如肿瘤是否良性,0和1)来说,如果采用线性回归模型,会有很大误差,因为线性回归不仅会输出0和1,还会输出0和1之间以及<0和 > 1的所有结果。
- 对于哪种情况表示1,哪种情况表示0,取决于我们自己如何定义,这有一点随意
- 对于均匀分布的数据来说,也许我们选择0.5作为分界线,可以得到比较合适的线性回归模型。
- 但是,如果在右侧添加一个训练示例,使数据分布不均匀,同时不改变0.5分界线的话,则之前的线性回归模型的误差会很大。但,如果改变的话,这与我们的意愿不符,在右侧添加一个训练示例,不应该改变我们对于区分肿瘤是否良性的分界线(决策边界)
2. sigmoid函数(逻辑回归函数)
- 以判断肿瘤是否为良性为例,拟合数据的图形为S型曲线。而sigmoid函数g(z)的图形也是S型曲线,可以满足要求,且g(z)的取值范围为0到1
- sigmoid函数,S型函数有时也叫逻辑回归函数
3. 逻辑回归模型(分类算法)
- 令z = 向量w·向量x + b ,则把z带入f(x) = g(z) = 1/(1+e⁻ᶻ),可以得到f(x)的函数,即逻辑回归函数(上面的f(x)是线性回归函数,而下面的f(x)才是逻辑回归函数,这两个f(x)不相同)
- 逻辑回归的作用是:输入特征x,并输出一个介于0和1之间的数,这个数为 标签y取1的概率
- 标签y取1和0的概率之和,应为1。所以若输出结果为0.7,则表示该标签y取1的概率为0.7,那么该标签y取0的概率为0.3
- 右上角的式子可在论文中看到,表示:参数向量w和参数b,输入特征向量x。当标签y取1时,逻辑回归模型的概率