Stanford 机器学习笔记 Week3 Classification and Representation

最新推荐文章于 2022-12-13 22:16:48 发布

Baoli1008

最新推荐文章于 2022-12-13 22:16:48 发布

阅读量922

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Baoli1008/article/details/50646442

版权

机器学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

Classification and Representation

Classification

分类问题的预测返回值为离散量。

以0，1两种返回值为例。线性回归算法不适用于解决分类问题，因为

画成图像后，数据点的y值只有0，1两种，因此边界上的一个单独的

点会对回归直线造成很大影响。

Hypothesis Representation

相对于线性回归模型会出现预测值>1和<0的情况，逻辑回归(logistic

regression)模型保证预测值都在(0，1)之间。

其预测值hθ(x) = g(theta’ * x)

g(t) = 1/(1+e^(-t))

hθ(x)表示x的分类值为1的可能性。

因此该问题的关键是找到最合适的θ。

Decision Boundary

logistic regression保证预测值在（0，1）范围内，这样就可以找到方

法映射到离散值上，比如规定hθ(x)<=0.5时认为属于0分类，>0.5属

于1分类。

因为hθ(x) = g(θTx)

根据g的图像可以发现：

hθ(θTx) >= 0.5 –> θTx>=0

hθ(θTx) <0.5 –> θTx<0

因此，这种分类方法实际上是用直线（或面）θTx ＝0 将图像分割为

两部分，认为一部分属于分类0，一部分属于分类1。

这条直线就被称为linear decision boundary。

当然对于一些数据集decision boundary不是线性的，因为构造的

θTx ＝0 不是一条直线（向量X中不只有1次项）。

Cost Function

在Linear Regression中，Cost Function图像关于θ只有一个极值

点，具有凸包性(convex)。

但是在Logistic Regression 中，因为hθ(x) = g(θTx)，不再是一个一

次直线，Cost Function也就不再具有凸包性，因此在使用Gradient

Descent 时不能保证找到全局最小点。

因此要改变Cost Function的形式为：

这里写图片描述

首先保证了单调性，因为hθ(x)是单调的，log也是单调的。

其次保证了正确性：

(y = 1 && hθ(x) = 1) –> cost = 0

(y = 0 && hθ(x) = 1) –> cost = +无穷

Simplified Cost Function and Gradient Descent

将Cost Function两种情况合并为：

-y * log(hθ(x)) - (1-y) * log( 1- hθ(x) )

logistic regression 和 linear regression 的Gradient Descent 的迭

代过程基本是一样的，都是：
这里写图片描述
区别在于hθ(x)不一样

Advanced optimization

几种相对梯度下降更好的方法：

Conjugate Gradient（共轭梯度法）

BFGS（拟牛顿法改进）

L-BFGS（BFGS改进）

它们的优点是不用人为设定迭代步长a，并且速度更快。

但是大多数这些算法都需要使用两个东西，一是J(θ)公式，二是J(θ)

关于各个theta的偏导数的公式。Octave函数fminunc即可接受上述

参数自动返回最优值。

Multiclass Classification: One-vs-all

对于存在多种分类的分类问题，可以将其转化为二元分类问题解决。

方法是对每种分类分开讨论，将该分类视为0，非该分类视为1，这样

就是二元分类问题了。每种情况都有不同的θ向量。

hθi(x)表示x属于第i分类的可能性。

Regularization

The Problem of Overfitting

拟合效果不好有两种情况：

欠拟合(Underfitting)，指的是预测值和training set匹配程度较差。

过拟合(Overfitting)，指的是拟合曲线过度追求吻合training set，可能被一些噪音干扰，偏离实际情况。当

数据的参数过多时容易发生这种情况。

解决过拟合有两种方法:

1.减少参数数量，可以人为选择使用哪些参数，也可使用模型选择算法（后面会讲）。但是这可能会导致丢

失信息。

2.正则化(regularization)，调整每个参数的权重。

Cost Function

θ参数越小，曲线将会越平滑，越不容易Overfitting。

因此构造新的Cost Function

这里写图片描述
这个函数的前半部分（原Cost Function)，控制拟合曲线尽量接近training set，后半部分控制θ参数尽可能

小。正则参数λ控制正则化的程度，λ越大拟合曲线的匹配程度越小。

Regularized Linear Regression

正则化的梯度下降公式为：

这里写图片描述
(0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Baoli1008 CSDN认证博客专家 CSDN认证企业博客

码龄10年

293: 原创

13万+: 周排名

88万+: 总排名

65万+: 访问

: 等级

6895: 积分

69: 粉丝

159: 获赞

32: 评论

285: 收藏

私信

关注

热门文章

分类专栏

数据结构 63篇
水题 43篇
贪心 4篇
图论 31篇
搜索 32篇
数论 15篇
dp 31篇
模拟 17篇
普林斯顿大学MOOC algorithm 1 2篇
计算几何 11篇
python 8篇
linux 5篇
数学 28篇
字符串 16篇
MacOX
JAVA
汇编语言 4篇
minisat 2篇
C++ 4篇
MFC 1篇
Numpy 2篇
机器学习 23篇
Octave 6篇
机器学习实战 1篇
Github 1篇
pandas 2篇

最新评论

补码运算中的溢出
做而论道_CS: 在计算机系统中，正负数值，一律采用补码表示和存储。数值、补码，直接转换即可，无须讨论原码反码。补码的运算，与一般二进制的运算相同。但是，补码运算时，不包括进位位。补码运算的结果，一旦超出表达范围，就是溢出。溢出的表现是：三个符号位，不符合正确的关系。判断是否溢出，看三个符号就行了，不用看原码反码。如：085h + 9ch 　= 1000 0101b + 1001 1100b 　= (1) 0010 0001b 两个负数相加，和，却是正数！不符合正常逻辑，这就是溢出了。又：0e7h + 0b3h 　= 1110 0111b + 1011 0011b 　= (1) 1001 1010b 两负数相加，和，依然是负数。无异常，这就没有溢出。溢出，与进位位，并无关系。与原码，更没有关系。归结起来，补码的溢出判断规则就一句话：同符号数相加，结果的符号位和两加数不同，既是溢出。完全正确。
Python 动态生成变量名
print_bookcase: 怎么用一个类创建多个对象，好几十个那种
Python 动态生成变量名
残存的影子: 文件分割
Python 动态生成变量名
这样啊812: 你调用什么情况需要调用这么多?
Python 动态生成变量名
残存的影子: 写的不明白啊,那我调用呢?还是要一个个写? 还要从1写到100?,那我要他有何用

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。