Coursera机器学习 Week3 笔记

最新推荐文章于 2022-02-01 17:49:01 发布

LVB10101111

最新推荐文章于 2022-02-01 17:49:01 发布

阅读量618

点赞数

分类专栏：机器学习Coursera By Andrew Ng 文章标签：机器学习

本文链接：https://blog.csdn.net/u013515273/article/details/77247810

版权

机器学习Coursera By Andrew Ng 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

编程作业放到了github上：coursera_machine_learning

1. Logistic Regression

1.1 Logistic Regression (Classification) Model

之前对房价的预测，其预测结果是一个连续变量，属于回归模型（Linear regression）。接下来要讲的是分类模型（Logistic regression），即其预测结果是一个离散变量，有固定的取值分布。

分类问题，又分成了“二分类”和“多分类”，先讲简单的“二分类”。

例子：判断一个病人是否罹患癌症。一个二分类问题，是或者否。

判断是否罹患癌症的标准就是通过看肿瘤大小来预测罹患癌症的概率。既然是概率，那么预测结果 $\hat{y}=h_{\theta}(x)$ 就是在 $[0,1]$ 范围中的。

之前Linear regression中 $h_{\theta}(x)=\theta^Tx$ ，预测结果是连续变量，转换到Logistic regression，只需要将这个 $h_{\theta}(x)$ 映射到 $[0,1]$ 范围内即可。新的预测函数如下：

h θ (x) = σ (θ T x)

$h_{\theta}(x)=\sigma(\theta^Tx)$

σ (z) = s i g m o i d (z) = 1 1 + e - z

$\sigma(z)=sigmoid(z)=\frac{1}{1+e^{-z}}$

sigmoid函数形状如下：

即：

h θ (x) = 1 1 + e - θ T x

$h_{\theta}(x)=\frac{1}{1+e^{-\theta^Tx}}$

现在可以用这个 $[0,1]$ 之间的值来表示罹患癌症的概率了，设定一个阈值(threshold)，如果 $h(x)>threshold$ ，则罹患癌症，反之。

注意：这里的sigmoid只是起到了映射到(0, 1)范围的作用。

逻辑回归的边界依然是： $\theta^Tx == threshold$

从这个边界中看到，这样的逻辑回归是一个线性分类器。

用等高线图画出来就是这样的：

三维图是这样的：

画图的代码如下：

% Here is the grid range
    u = linspace(30, 100, 100);
    v = linspace(30, 100, 100);

    z = zeros(length(u), length(v));
    % Evaluate z = theta*x over the grid
    for i = 1:length(u)
        for j = 1:length(v)
            t = [1, u(i), v(j)];
            z(i,j) = sigmoid(t * theta);
        end
    end
    z = z'; % important to transpose z before calling contour
    % Plot z = 0
    % Notice you need to specify the range [0, 0]
    contour(u, v, z, [0.5, 0.5], 'LineWidth', 2)
    xlabel('Exam 1 score')
    ylabel('Exam 2 score')
    hold off;

    figure;
    surf(u, v, z)

接下来就是loss function的设置了。

在logistic regression中，不再使用平方差来表示error了，转而使用negative log来表示error：

J i (θ) = {- l o g (h θ (x)) i f y = 1 - l o g (1 - h θ (x)) i f y = 0

$J_i(\theta)= \left\{\begin{matrix} -log(h_{\theta}(x)) \qquad \ \ \ \ \ \ if \ y=1\\ -log(1-h_{\theta}(x)) \qquad if \ y=0 \end{matrix}\right.$

解释为什么使用negative log；

首先说明loss function的定义：当预测结果越接近真实结果时，loss越小。只要函数可以满足这一点，就可以成为loss function。

首先看 $y=1$ 的情况，预测结果为 $h(x)$ ，真是结果为1，当 $h(x)$ 越接近1的时候， $-log(h_{\theta}(x))$ 越小，即error越小，所以可以用这个式子表示error。

然后当 $y=0$ 的时候，预测结果为 $h(x)$ ，真是结果为0，当 $h(x)$ 越接近0的时候， $-log(1-h_{\theta}(x))$ 越小，即error越小，所以可以用这个式子表示error。

然后为方便计算，将以上的两个式子整合到一个式子中，通过 $y$ 和 $1-y$ 来决定出现两个式子中的哪一个：

J i (θ) = - y l o g (h θ (x)) - (1 - y) l o g (1 - h θ (x))

$J_i(\theta)=-ylog(h_{\theta}(x))-(1-y)log(1-h_{\theta}(x))$

整个训练集的error就是所有 $J_i(\theta)$ 的和：

J (θ) = 1 m \sum i = 1 m J i (θ) = - 1 m \sum i = 1 m [y l o g (h θ (x)) + (1 - y) l o g (1 - h θ (x))]

$J(\theta)=\frac{1}{m}\sum^{m}_{i=1}J_i(\theta)=-\frac{1}{m}\sum^{m}_{i=1}[ylog(h_{\theta}(x))+(1-y)log(1-h_{\theta}(x))]$

最后要做的就是不断更新 $\theta$ 从而减小 $J(\theta)$ ，使用的方法就是gradient descent：

θ j : = θ j - α \partial \partial θ j J (θ)

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta)$

逻辑回归一般情况下是线性分类器，但是在特定的情况下，可以转变成非线性分类器，如下图：
这里写图片描述

1.3 Multiclass Classification Model

OK, OK…但是还有很多情况，分类不止“是”、“否”两种。

下图左边是二分类的情况，右边是多分类的情况。

对于多分类问题可以转化成多个二分类问题来解决，如下图，先取一种类别，把其他的都归并为一类。然后再去一种类别，把剩余的归并为一类……直至所有类别都遍历完。

最后，对于一个 $x$ ，有 $k$ 个 $h(x)$ ，分别代表 $k$ 个类概率，取最大 $h(x)$ 所属的类别即可。

2. Regularization

2.1 Overfitting Problem

overfitting就是在训练集中拟合的特别好，或者说是过分好了，导致在新数据上的预测的效果不好。如下图：

左边没有overfitting，右边的overfitting

2.2 Regularization Intuition

下面两幅图中，左边的没有overfitting，右边的overfitting了，原因就是多了最后 $\theta_3$ 和 $\theta_4$ 这两项使得整个模型变复杂了。

所以我们需要在cost function中增加一项惩罚项penalty，我们的目的就是让 $\theta_3$ 和 $\theta_4$ 尽可能的小，最好接近于0，这样就可以消除这两项的干扰了。

2.3 Regularization Term

非常简单而暴力地增加一项：（注意，没有包含 $\theta_0$ ，在实际操作过程中，加不加 $\theta_0$ 的影响不大，这里举例子就不加了）

θ 21 + θ 22 + . . + θ 2 n

$\theta_1^2+\theta_2^2+..+\theta_n^2$

到cost function中，并且用 $\lambda$ 来权衡这一个惩罚项：

J (θ) = - 1 m \sum i = 1 m J i (θ) + λ \sum j = 1 n θ 2 j

$J(\theta)=-\frac{1}{m}\sum^{m}_{i=1}J_i(\theta)+\lambda\sum^{n}_{j=1}\theta_j^2$

模型学习的目的就是减小 $J(\theta)$ ，这样一来， $\theta_1^2+\theta_2^2+..+\theta_n^2$ 也就减小了。

如果 $\lambda$ 非常大，那么模型在学习过程中，为了让 $J(\theta)$ 减小，就会让 $\theta_1^2+\theta_2^2+..+\theta_n^2$ 非常小，接近于0，整个模型就会变得特别简单， $≈\theta_0$ ，只剩下一个常数项了。

反之，如果 $\lambda$ 非常小，接近于0，那么相当于 $\theta_1^2+\theta_2^2+..+\theta_n^2$ 这一项不存在了，模型有overfitting的危险。

总而言之， $\lambda$ 是用来控制惩罚项的影响因子，越大就是让惩罚项越发挥作用。

最后，在gradient descent中，把这一项也求导了就好了。

LVB10101111

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录