回归&分类

分类和回归的区别在于输出变量的类型。

定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。

回归是统计学的一个重要概念,其本意是根据之前的数据预测一个准确的输出值。

回归算法:线性回归是一种基本的回归算法,当给出相应的训练集后,通过线性回归来寻找合适参数θ(向量)使得Hypothesis函数的Cost function最小。

分类算法:逻辑回归是一个分类算法,逻辑回归的Hypothesis和线性回归非常相似,唯一的区别在于外层的sigmoid function。

sigmoid:简单来说,当参数大于0时,则函数值趋近于1,而当参数值小于0时,函数值趋近于0。因此逻辑回归的Hypothesis可以解释为样本x属于正类型的概率。当θx>0后,概率趋近于1,反之则趋近于0。

1.线性回归(Linear regression

线性回归分析常用于分析两个变量X和Y 之间的关系,例如X为尺寸 ,Y为房价之间的关系。

房价预测

迭代优化过程

 

 数据集(训练实例)

 线性模型

 

 参数

 

如何确定参数?

误差

将模型与数据点之间的距离差 之和做为 衡量匹配好坏的标准。  误差越小,  匹配程度越大。

代价函数(Cost function)

我们想要找到的模型, 最后是想要使 f(x) 最大程度地 与y相似, 所以我们想要尽量地减少 f(x)与y之间的差值。 

最小二乘法(又称最小平方法)是一种数学优化技术。它由两部分组成:
一、计算 所有样本误差的平均(代价函数)
二、使用最优化方法寻找数据的最佳函数匹配(抽象的)
最小二乘法是抽象的,具体的最优化方法有很多,比如 正规方程法、梯度下降法 、牛顿法、拟牛顿法等等。

最小二乘法为什么使用平方而不是绝对值?

保证结果为正数
平方形式会让损失值更加接近于0
平方可以是一条平滑曲线,可以进行求导操作(越接近最优值,速度越慢)

梯度下降(Gradient descent

梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数 J(θ0,θ1) 的最小值。
梯度下降背后的思想是:开始时我们随机选择一个参数的组合( θ0,θ1 ),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。

 学习率(learning rate

大于0的一个很小经验值,它决定沿着能让代价函数下降的程度有多大。

每一次都同时让所有的参数减去学习速率乘以代价函数的导数。

 

 如果 α 太小,梯度下降就会变慢。

如果α太大,梯度下降法可能会越过最低点。甚至可能无法收敛,或者偏离。 

回归模型性能度量方式

机器学习模型到底对数据的预测效果如何,这就需要一个标准,就是性能度量。

常用指标
均方误差   mean square error
mse   均方误差

均方误差根  root mean square error
rmse  均方误差根

均绝对值误差   mean absolute error
mae   均绝对值误差

R平方值( R 方)  r2 score
R** 2         R 平方 

2.逻辑回归(Logistic regression)

电路正负极分类

迭代优化过程

 

逻辑回归是一种描述数字电路特点的工具。输出量是高、低电平,可以用二元常量(01)来表示。0作为负类别(错误,相对不太受关注的类别),1作为正类别(正确,相对受关注高的类别)。

我们可以直接使用线性回归处理二分类问题吗?

1>不可以,如果使用线性回归,那么线性回归模型的输出值可能远大于1,或者远小于0

2>导致代价函数很大。不适合快速计算。

逻辑回归算法的思想是:它的输出值永远在0 1 之间。

这里就使用到sigmoid函数(S型生长曲线)。

 其中z代表的就是之前学习过的线性回归,逻辑回归中的回归由此而来。

逻辑回归输出值范围为0-1(输出正类别的概率),其中设置阈值为0.5;

如果数值大于0.5,属于1类别(正类别概率大于0.5);

如果数值小于0.5,属于0类别(正类别概率小于0.5);

通过sigmoid函数,将线性问题,转换为概率问题。

我们想要根据电路,来预测电路的正负极,我们能不能用回归的方法做呢?  显然是可以的, 我们只要找到一个模型,然后再进行匹配就可以了。
但是因为分类问题的y值常常是一些离散的数字,(比如, 正极为1, 负极为0), 所以我们已经不能用一个 简单的线性函数来拟合这些数据了。我们需要一个更逼真的模型。 

于是我们引入了一个更适合处理分类问题的函数一个 非线性函数, 阶跃函数。

Sigmoid function

代价函数(Cost function)

熵是用来衡量信息不确定性的单位(概率和信息量乘积)

交叉熵

用来检验实际发生概率预测准确率信息量的乘积

简单来说,当参数大于0时,则函数值趋近于1,而当参数值小于0时,函数值趋近于0.因此逻辑回归的Hypothesis可以解释为样本x属于正类别的概率。当θ.Tx>0后,概率趋近于1,反之则趋近于0。由此得到Cost function如下:

Cost function看上去复杂,实际上如果自习分析,其实函数表示的意义非常简单,当预测的概率越接近真实情况,代价函数越接近0,反之则趋近于无穷大。

梯度下降(Gradient descent

  • 6
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值