Coursera_机器学习_week3_逻辑回归

最新推荐文章于 2022-02-04 16:23:56 发布

cutie吖

最新推荐文章于 2022-02-04 16:23:56 发布

阅读量904

点赞数

分类专栏：公开课笔记文章标签：机器学习

本文链接：https://blog.csdn.net/icecutie/article/details/50990899

版权

公开课笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

52nlp的笔记，我的笔记中主要讨论偏微分方程的推导

分类算法逻辑回归

分类问题的y取值是在一定范围
y = {0,1}或者y={0,1,2,3}
这种情况下线性回归方程并不适用，这时候可以采用逻辑回归算法

逻辑回归Logistic Regression

h θ (X) = g (Θ T X) = 1 1 + e - θ T X

$h_\theta(X) = g(\Theta^TX) = \frac{1}{1+e^{-\theta^TX}}$
这样就使得

0≤hθ(x)≤1 $0\leq h_\theta(x) \leq 1$ ，这里

hθ(X) $h_\theta(X)$ 的定义是

h θ (X) = P (y = 1 | x, θ)

$h_\theta(X) = P(y = 1 | x,\theta)$
也就是，对给定的x，

θ $\theta$ ，y=1的概率

决策边界Decision Boundary

如果我们假定阈值为0.5 ，也即
$h_\theta(X)\geq0.5$ 时，y=1;
$h_\theta(X)\leq0.5$ 时，y=0;
那么 $h_\theta(X)=0.5$ ，也即 $\Theta^TX = 0$ 是决策边界。

代价函数 Cost Function

对于逻辑回归问题，我们选择对数损失函数/对数似然损失函数作为代价函数，这样的代价函数是凸函数，有global optimum 而不是很多个local optimum

C o s t (h θ (x), y) = {- log (h θ (x)) - log (1 - h θ (x)) if y=1 if y=0

$Cost(h_\theta(x),y) = \begin{cases} -\log(h_\theta(x))& \text{if y=1}\\ -\log(1-h_\theta(x))& \text{if y=0} \end{cases}$

简化的代价函数

总代价函数为

J (Θ) = 1 m \sum i = 1 m C o s t (h θ (x (i)), y (i))

$J(\Theta) = \frac{1}{m} \sum_{i=1}^{m}Cost(h_\theta(x^{(i)}),y^{(i)})$
将代价函数合并成一个函数

C o s t (h θ (x), y) = - y log (h θ (x)) - (1 - y) log (1 - h θ (x))

$Cost(h_\theta(x),y) = -y\log (h_\theta(x))-(1-y)\log (1-h_\theta(x))$
这其实就是最大似然函数的形式
从而总的代价函数可以表示为

J (Θ) = - 1 m [\sum i = 1 m y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))]

$J(\Theta) = -\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))]$

梯度下降算法

${min}_\theta J(\Theta):$
Repeat{
$\Theta_j := \Theta_j - \alpha\frac{\partial}{\partial \theta_j}J(\Theta)$
(simutaneously undate all $\theta_j$ )
}
其中

\partial \partial θ j J (Θ) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$\frac{\partial}{\partial \theta_j}J(\Theta) = \frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
推导过程需要用到：

y=logx $y = \log x$ ,

∂y∂x=1x $\frac{\partial y}{\partial x} = \frac{1}{x}$

y=expx $y = \exp x$ i.e.

ex $e^x$ ,

∂y∂x=expx $\frac{\partial y}{\partial x} = \exp x$

limx→+∞(1+1x)x=e $\lim_{x \to +\infty}(1+\frac{1}{x})^x = e$

(f(x)g(x))′=f′(x)g(x)−f(x)g′(x)g(x)2 $(\frac{f(x)}{g(x)})'=\frac{f'(x)g(x)-f(x)g'(x)}{g(x)^2}$
以及倒数的定义

Δy=f(x0+Δx)−f(x0) $\Delta y = f(x_0+\Delta x)-f(x_0)$

ΔyΔx=f(x0+Δx)−f(x0)Δx $\frac{\Delta y}{\Delta x} = \frac{ f(x_0+\Delta x)-f(x_0)}{\Delta x}$

f′(x0)=limΔx→0ΔyΔx $f'(x_0) = \lim_{\Delta x \to 0}\frac{\Delta y}{\Delta x}$
推导过程：

J (Θ) = - 1 m [\sum i = 1 m y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))]

$J(\Theta) = -\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))]$

= - 1 m [\sum i = 1 m y (i) log h θ ( x ( i ) ) 1 - h θ ( x ( i ) ) + log (1 - h θ (x (i)))]

$= -\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}\log \frac{h_\theta(x^{(i)})}{1-h_\theta(x^{(i)})}+\log(1-h_\theta(x^{(i)}))]$
将

hθ(X)=11+e−θTX $h_\theta(X) = \frac{1}{1+e^{-\theta^TX}}$ 代入，得到

J (Θ) = - 1 m [\sum i = 1 m y (i) Θ T x (i) + log (e - Θ T x ( i ) 1 + e - Θ T x ( i ))]

$J(\Theta) = -\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}\Theta^Tx^{(i)}+\log(\frac{e^{-\Theta^Tx^{(i)}}}{1+e^{-\Theta^Tx^{(i)}}})]$

那么

\partial \partial θ j J (Θ) = - 1 m [\sum i = 1 m y (i) x (i) j + 1 + e - Θ T x ( i ) e - Θ T x ( i ) e - Θ T x ( i ) ( - x ( i ) j ) ( 1 + e - Θ T x ( i ) ) - e - Θ T x ( i ) ( - x ( i ) j ) ( e - Θ T x ( i ) ) ( 1 + e - Θ T x ( i ) ) 2]

$\frac{\partial}{\partial \theta_j}J(\Theta) =-\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}x_j^{(i)}+\frac{1+e^{-\Theta^Tx^{(i)}}}{e^{-\Theta^Tx^{(i)}}}\frac{e^{-\Theta^Tx^{(i)}}(-x_j^{(i)})(1+e^{-\Theta^Tx^{(i)}})-e^{-\Theta^Tx^{(i)}}(-x_j^{(i)})(e^{-\Theta^Tx^{(i)}})}{(1+e^{-\Theta^Tx^{(i)}})^2}]$

= - 1 m [\sum i = 1 m y (i) x (i) j + ( - x ( i ) j ) ( 1 + e - Θ T x ( i ) ) - ( - x ( i ) j ) ( e - Θ T x ( i ) ) 1 + e - Θ T x ( i )]

$=-\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}x_j^{(i)}+\frac{(-x_j^{(i)})(1+e^{-\Theta^Tx^{(i)}})-(-x_j^{(i)})(e^{-\Theta^Tx^{(i)}})}{1+e^{-\Theta^Tx^{(i)}}}]$

= 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$= \frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$

调用 fminunc()函数

不用再编写循环和设置步长了，一个函数搞定

fminunc

过拟合Overfitting

特征太多，拟合的太好，代价函数几乎为0，但预测结果并不好
过拟合发生时，我们需要
1）降低特征个数（手动/通过算法），代价是失去了部分信息
2）正规化：保留所有特征，但减少 $\theta_j$ 的大小，这样就保留了所有的特征

正规化 Regularization

使用数值小的参数，得到“简化”的h函数，降低过拟合的倾向性

线性回归的正规化

J (Θ) = 1 2 m [\sum i = 1 m (h θ (x (i) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(\Theta) = \frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x^{(i)}-y^{(i)})^2+\lambda\sum_{j=1}^{n}\theta_j^2]$
注意，

θ0 $\theta_0$ 单列出来，不在惩罚范围内

λ $\lambda$ 为正规化参数，如果

λ $\lambda$ 过大，则可能导致underfitting

assignment

plot样本数据的时候用到了find

% Find Indices of Positive and Negative Examples
pos = find(y==1); neg = find(y == 0);
% Plot Examples
plot(X(pos, 1), X(pos, 2), 'k+','LineWidth', 2, ...
     'MarkerSize', 7);
plot(X(neg, 1), X(neg, 2), 'ko', 'MarkerFaceColor', 'y', ...
     'MarkerSize', 7);

求解过程用到的函数其实也没怎么搞明白

%  Set options for fminunc
options = optimset('GradObj', 'on', 'MaxIter', 400);
%  Run fminunc to obtain the optimal theta
%  This function will return theta and the cost
[theta, cost] = ...
fminunc(@(t)(costFunction(t, X, y)), initial theta, options);