逻辑回归
对于线性边界的情况,边界的形式如下
构造预测函数为
函数 hθ(x) 的值有特殊的含义。
定义
定义 (Logistic模型)二项逻辑回归模型是如下的条件概率分布:
对于给定的输入实例
x
,分别求得(1)和(2)的概率,然后通过比较两个条件概率值的大小,将实例
特点
LR模型的特点:
如果时间发生的概率是
p
,那么该事件的几率是
对于LR而言,对数几率是
也就是说,输出
Y=1
的对数几率是输入
x
的线性函数。
换一个角度, 考虑对输入
这时,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0.
模型参数估计
应用极大似然法估计模型参数
似然函数为:
对数似然函数为:
对
L(w)
求极大值,就得到了
w
的估计值。
其实可以用梯度下降法求解。将
正则化
过拟合问题
对于线性回归或逻辑回归的损失函数构成的模型,可能会有些权重很大,有些权重很小,导致过拟合(就是过分拟合了训练数据),使得模型的复杂度提高,泛化能力较差(对未知数据的预测能力)。
问题的主因
过拟合问题往往源自过多的特征。
解决方法
1)减少特征数量
- 可用人工选择要保留的特征;
- 模型选择算法
2)正则化(特征较多的时候有效)
- 保留所有特征,但减少
θ
的大小
多项逻辑回归
假设离散型随机变量Y的取值集合是 {1,2,…,K} ,多项逻辑回归模型为:
优缺点
优点:
- 实现简单
- 存储量低
- 分类计算量小
- 速度快
缺点:
- 容易欠拟合
- 准确率不高