Logistic Regression

最新推荐文章于 2024-08-13 10:48:22 发布

u011144848

最新推荐文章于 2024-08-13 10:48:22 发布

阅读量158

点赞数

分类专栏：机器学习 deep learning 文章标签：机器学习 deep learning

本文链接：https://blog.csdn.net/u011144848/article/details/90422469

版权

deep learning 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

机器学习

5 篇文章 0 订阅

订阅专栏

Logistic Regression

定义
loss function & cost function
代价函数的解释
- 交叉熵CEH的角度
- 极大似然估计的角度
求解
- 求梯度
- 迭代求解
代码示例
参考

定义

对于一个样本x，模型模拟函数如下：
$\hat{y}=a=\sigma(z)=\sigma(w^Tx+b)$
$\sigma(z)=\frac 1{1+e^{-z}}$
$z=w^Tx+b$
其中， $\sigma(z)$ 是 sigmod 函数称为激活函数，如下图所示。可依据器输出的值大小对样本x进行分类。由于其值域范围为0~1，可以将该激活函数的输出看做为某一类别的概率。
在这里插入图片描述

loss function & cost function

loss function:
$l(\hat{y},y)=-ylog\hat{y}-(1-y)log(1-\hat{y})$
cost function:
$J(w,b)=\frac 1m\sum_{i=1}^{m}l(\hat{y}^{(i)},y^{(i)})=-\frac 1m\sum_{i=1}^{m}ylog\hat{y}+(1-y)log(1-\hat{y})$
其中，m表示样本个数i表示样本个数。损失函数 $l$ 衡量的时单个样本的预测值和实际值的差距，代价函数cost衡量的时所有样本的差距

代价函数的解释

交叉熵CEH的角度

补充：交叉熵和KL散度正相关,都反映了假设分布到真实分布的距离(无效性)

对于一个假设分布q 和一个真实已确定的分布p，其交叉熵公式如下：
$CEH(p,q)=E_p[-log(q)]=-\sum_{x\epsilon{X}}[p(x)logq(x)]$
其中假设样本数据，为已知分布p，则对于样本x的概率为： $p(x)=\left\{ \begin{aligned} y &&, && y=1 \\ 1-y &&,&& y=0 \\ \end{aligned} \right.$
其中预测的分布为q，则对于样本x 的概率为：
$q(x)=q(y|w,b,x)=\left\{ \begin{aligned} \hat{y} &&, && y=1 \\ 1-\hat{y} &&,&& y=0 \\ \end{aligned} \right.$
所以，将上面两个概率带入交叉熵函数，可得： $J(w,b)=\frac1mCEH(p,q)=-\frac 1m\sum_{i=1}^{m}ylog\hat{y}+(1-y)log(1-\hat{y})$

极大似然估计的角度

补充：似然函数描述的时在参数条件下，某件事发生的概率，我们要做的就是找到该参数使其概率最大

$L=\prod(\hat y)^y(1-\hat y)^{(1-y)}$
也就是目标为： $L_{min}(w,b)$ , 对其求对数，转换成对数似然就可得到代价函数。

求解

求解的基本方法梯度下降

求梯度

1、目标是找到，w,b使得代价函数最小，因此需要求，损失函数对w 和 b的偏导。（复合函数求导，chain rule）
$\frac{\partial l}{\partial w}=\frac{\partial l}{\partial \hat{y}}*\frac{\partial \hat{y}}{\partial z}*\frac{\partial z}{\partial w}$
$\frac{\partial l}{\partial b}=\frac{\partial l}{\partial \hat{y}}*\frac{\partial \hat{y}}{\partial z}*\frac{\partial z}{\partial b}$

2、activation function sigmoid ， $\sigma(z)=\frac 1{1+e^{-z}}$ 的导数为：

$\sigma^{'}(z)=\frac{d\hat y}{dz}=\sigma(z)(1-\sigma(z))=\hat y(1-\hat y)$
3、loss函数对 $\hat{y}$ 求偏导
$\frac{\partial l}{\partial \hat{y}}=-\frac{y}{\hat y}+\frac{1-y}{1-\hat y}$
4、x为n维向量
$\frac{\partial z}{\partial w_1}=x_1$
$\frac{\partial z}{\partial w_2}=x_2$
…
$\frac{\partial z}{\partial w_n}=x_n$
$\frac{\partial z}{\partial b}=1$

对于样本x依据链式法则:
$\frac{\partial l}{\partial w}=(\hat y-y)x$
因此：
$\frac{\partial J}{\partial w}=\frac{1}{m}\sum_{i=1}^{m}(\hat y^{i}-y^{i})x^{i}=\frac{1}{m}X(\hat Y-Y)^{T}$
$\frac{\partial l}{\partial b}=\frac{1}{m}\sum_{i=1}^{m}(\hat y-y)$
注： X为nxm维的矩阵，你为特征维度，m为样本个数

迭代求解

repeat:{
$w-\alpha \partial w$
$b:b-\alpha \partial b$
}

代码示例

```python
# 这段代码用来解释说明 logistic regression
import numpy as np
# activation functuion: sigmoid
def sigmoid(z):
	"""
	z 为入参，类型为 array 数组
	retuen :sigmoid(z)
	"""
	s= 1.0/(1+np.exp(-z))
	return s
	
# 定义初始化参数函数
def initialize_w_b(dim):
	"""
	w: 维度为(dim,1)
	这里 w 和  b 都初始化 为0，也可以采用其他方法，注意出现 梯度消失 的现象。
	"""
	w =  np.zeros((dim,1),dtype=float)
	b = 0
	assert(isinstance(b,float) or ininstance(b,int))
	return w,b
	
# 定义函数 完成 前向计算和反向梯度求解
def propagate(w,b,X,Y):
	"""
	w : shape (nx,1)
	b : bias
	X : shape (nx,number of examples)
	Y : shape (1,number of examples)

	return:
	cost -- 计算代价
	dw   --  w的梯度
	db   --  b的梯度
	"""
	# forward propagatioon
	m  = X.shape[1]  # the number of sample
	A =sigmoid(np.dot(w.T,x)+b)  # the resulr of activation function
	cost = -np.sum((Y*np.log(A)+(1-Y)*np.log(1-A)),axis=1)/m

	# backward propagation
	dw = np.dot(X,(A-Y).T)/m
	db = np.sum((A-Y))/m
	assert(dw.shape == w.shape)
	assert(sb.dtype == float)
	cost = np.squeeze(cost)   
	assert(cost.shape == ())

	# build result
	grads ={"dw":dw,"db":db}
	return grads , cost

# 定义迭代优化求解的函数
def optimize(w,b,X,Y,num_iterations,learning_rate,print_cost=False):
	"""
	简单的梯度下降迭代优化求解
	"""
	costs = []
	for i in range(num_iterations):
		# 计算当前代价 和 参数梯度
		grads, cost = propagate(w,b,X,Y)
		# 更新参数
		dw = grads["dw"]
		db = grads["db"]
		w = w=learning_rate*dw
		b = b-learning-rate*db
		if i%100 ==0:
			costs.append(cost) 
		if print_cost and i % 100 == 0:
			print ("Cost after iteration %i: %f" %(i, cost))
	params = {"w":w,"b":b}
	grads = {"dw":dw,"db":db}
	return params, grads , costs

#end ,至此完成一个logistic regression 训练的所有函数都已经实现完毕。

参考

logistics regression wikipedia
Interpretable Machine Learning
stochastic gradient descent wikipedia
Cross entropy wikipedia

u011144848

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Logistic Regression

Logistic Regression定义loss function & cost function代价函数的解释极大似然估计的角度交叉熵CEH的角度求解求梯度定义对于一个样本x，模型模拟函数如下：y^=σ(wTx+b)\hat{y}=\sigma(w^Tx+b)y^=σ(wTx+b)σ(z)=11+e−z\sigma(z)=\frac 1{1+e^{-z}}σ(z)=1+e−z...
复制链接

扫一扫

专栏目录