逻辑回归(Logistic Regression)
逻辑回归(Logistic Regression)是一种用于二分类问题的统计学习方法,它通过对输入特征的线性组合应用sigmoid函数将输出映射到[0, 1]的范围,表示某个样本属于某一类的概率
模型假设
逻辑回归基于以下假设:
- 数据服从伯努利分布,是二分类问题。
- 线性关系:特征的线性组合与输出的对数几率(log-odds)存在关系。
模型表示
给定输入特征向量 x \mathbf{x} x,逻辑回归模型的输出通过逻辑函数(也称为sigmoid函数)表示:
h ( x ) = 1 1 + e − θ T x h(\mathbf{x}) = \frac{1}{1 + e^{-\theta^T \mathbf{x}}} h(x)=1+e−θTx1
其中,
θ
\theta
θ 是模型的参数向量,
e
e
e 是自然对数的底。
决策边界
逻辑回归的决策边界是一个线性平面,将数据分为两个类别。决策边界是由模型参数 θ \theta θ 决定的。
损失函数
逻辑回归使用对数损失交叉函数来度量模型的性能:
J ( θ ) = − 1 m ∑ i = 1 m [ y ( i ) log ( h ( x ( i ) ) ) + ( 1 − y ( i ) ) log ( 1 − h ( x ( i ) ) ) ] J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[y^{(i)} \log(h(\mathbf{x}^{(i)})) + (1 - y^{(i)}) \log(1 - h(\mathbf{x}^{(i)}))\right] J(θ)=−m1i=1∑m[y(i)log(h(x(i)))+(1−y(i))log(1−h(x(i)))]
其中, m m m 是样本数量, y ( i ) y^{(i)} y(i) 是实际类别, h ( x ( i ) ) h(\mathbf{x}^{(i)}) h(x(i)) 是模型预测的概率。而后可以使用梯度下降或牛顿法进行优化。
拓展:Softmax多分类
当涉及到多分类问题时,只需将sigmoid函数更换为softmax函数,它将一个实数向量转换为概率分布。Softmax函数的定义如下:
给定一个实数向量 z = [ z 1 , z 2 , … , z C ] \mathbf{z} = [z_1, z_2, \ldots, z_C] z=[z1,z2,…,zC],Softmax函数的输出是一个具有 C 个元素的概率分布 p = [ p 1 , p 2 , … , p C ] \mathbf{p} = [p_1, p_2, \ldots, p_C] p=[p1,p2,…,pC],其中:
p i = e z i ∑ j = 1 C e z j p_i = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}} pi=∑j=1Cezjezi
这里, e e e 是自然对数的底, ∑ j = 1 C e z j \sum_{j=1}^{C} e^{z_j} ∑j=1Cezj 是所有元素的指数和。
而损失函数采用交叉熵损失函数,交叉熵(Cross-Entropy)损失函数是在分类问题中常用的一种损失函数,它用于衡量两个概率分布之间的差异。
对于多分类问题,交叉熵损失函数的表达式为:
H ( y , y ^ ) = − ∑ i y i log ( y ^ i ) H(y, \hat{y}) = -\sum_{i} y_i \log(\hat{y}_i) H(y,y^)=−i∑yilog(y^i)
其中:
- y i y_i yi 是实际的标签的独热编码(一个类别为1,其他为0),
-
y
^
i
\hat{y}_i
y^i 是模型预测的各类别概率。