分类问题与逻辑回归算法

1.什么是分类问题?

对房屋租赁价格进行预测,房屋租赁价格是在某一个范围内连续性变量的数字,这个问题我们可以使用线性回归问题解决;
换一种角度考虑,如果房屋价格高于某一个值,租客就不租房子;低于某一个价格才租房子,那么结果就成为租和不租房子这两种结果;此时就是一个分类问题。比如我们设定程序的输出 1 表示租用房子,0 表示不租用房子,此时我们发现输出的是非连续的离散值。

所以记住一点:分类问题输出离散值,线性回归问题输出连续值。

分类模型:分类要找一个 function 函数,输入对象 x 特征, 输出是该对象属于 n 个类别中是属于哪一个。比如将垃圾放入对应的垃圾桶里,湿垃圾放入湿垃圾垃圾桶;常见的应用有猫狗识别(二分类 ),手写数字的识别(多分类)。

2.分类与概率的关系

假设两个盒子,各装了5个球,还得知随机抽一个球,抽到的是盒子1的球的概率是 2/3,是盒子2的球的概率是1/3。

现在求随机从两个盒子中抽一个球,抽到的是盒子1中蓝色球的概率是多少?

从盒子中蓝色球和绿色球的分配可以得到:

  • 在盒子1中随机抽一个球,是蓝色的概率为P(Blue|B1) = 4/5,绿色的概率为 P(Green|B1) = 1/5
  • 在盒子2中随机抽一个球,是蓝色的概率为P(Blue|B2) = 2/5,绿色的概率为P(Green|B1) = 3/5

那我们从第一个盒子拿到蓝色球的概率: P ( B l u e ∣ B 1 ) P ( B 1 ) = 4 5 ∗ 2 3 = 8 15 P(Blue|B1)P(B1)=\frac{4}{5}*\frac{2}{3}=\frac{8}{15} P(BlueB1)P(B1)=5432=158

从第二个盒子拿到蓝色球的概率: P ( B l u e ∣ B 2 ) P ( B 2 ) = 2 5 ∗ 1 3 = 2 15 P(Blue|B2)P(B2) = \frac{2}{5}*\frac{1}{3}=\frac{2}{15} P(BlueB2)P(B2)=5231=152

从2个盒子里面拿到蓝色球的概率: P ( B l u e ) = P ( B l u e ∣ B 1 ) P ( B 1 ) + P ( B l u e ∣ B 2 ) P ( B 2 ) = 10 15 P(Blue)=P(Blue|B1)P(B1) + P(Blue|B2)P(B2)=\frac{10}{15} P(Blue)=P(BlueB1)P(B1)+P(BlueB2)P(B2)=1510

所以从拿到蓝色球是第一个盒子的概率是:
P ( B 1 ∣ B l u e ) = P ( B l u e ∣ B 1 ) P ( B 1 ) P ( B l u e ) = 8 10 = 4 5 P(B1|Blue)=\frac{P(Blue|B1)P(B1)}{P(Blue)}=\frac{8}{10}=\frac{4}{5} P(B1Blue)=P(Blue)P(BlueB1)P(B1)=108=54

两个盒子中抽一个球,抽到的是盒子1中蓝色球的概率是多少?
相当于两个类别中抽一个 x,抽到的是类别1中 x 的概率是多少?
可以转化成,随机给出一个 x,那么它属于哪一个类别(属于概率相对比较大的类别)?

判别式模型: 学习 条件概率分布P(y|x),就是在特征 X 出现的情况下标签 Y 出现的概率
p ( y ∣ x ) = f ( x ) = σ ( ∑ i w i x i + b ) p(y|x)=f(x) = σ(\sum_{i}w_ix_i+b) p(yx)=f(x)=σ(iwixi+b)

生成式模型:学习得到联合概率分布P(x,y),即特征X与标签Y共同出现的概率;然后在求条件概率分布,能够学习数据的生成机制。

生成模型与判别模型之间的差异理解

  • 判别模型 举例:要确定一个羊是山羊还是绵羊,用判别模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。

  • 生成模型 举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,在放到绵羊模型中看概率是多少,哪个大就是哪个。

3.逻辑回归

3.1 逻辑回归的概念

逻辑回归表达某件事情发生的可能性,比如:

  • 房子是否租用(结果是租用或者不足用)
  • 邮件是否垃圾邮件(结果是是或者否)
  • 购买商品的可能性(结果买或者不买)

此时我们发现,逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。

我们已经知道线性回归模型进行回归学习,主要思想是找到一条拟合曲线能够很友好的拟合已知数据并且能够预测未知数据。而逻辑回归主要解决二分类问题,我们以房屋是否租赁为例,我们根据线性回归方程拟合曲线已经获取房屋租赁的预测价格,现在我们只需要知道预测出来的租赁价格是否高于租客预算范围内。如果预测租赁价格高,则租客就不会租用该房屋;如果低于租客预算范围,则租客就会租用该房屋。

因此我们需要找到一个函数将线性回归模型的预测值与分类任务的真实目标值联系起来。

考虑到二分类任务,输出值 y 是 0 或者 1,线性回归模型输出值是 z = w T x + b z=w^Tx+b z=wTx+b,我们需要将实值 z 转换成 0/1 值,最理想的函数是单位阶跃函数。

3.2 单位阶跃函数

单位阶跃函数表达式:

很显然,单位阶跃函数满足我们的要求。我们将线性回归模型输出值 z 进行零均值标准化,将数据放缩在(-1,1)之间;当 z 值大于 0 则就判断为正例(y=1),小于 0 就判断为反例(y=0),临界值零就任意判断。综上:单位阶跃函数满足我们的要求;但是我们也看出来它的缺点:函数不连续。

我们找到单位阶跃函数的近视函数(或者说替代函数)sigmoid,它将值转化为一个接近 0 或者 1 的 y 值,表达式如下:
y = 1 1 + e − z y = \frac{1}{1+e^{-z}} y=1+ez1

3.3 逻辑回国模型

因为 z = w T x + b z = w^Tx+b z=wTx+b,所以逻辑回归的数学表达式:

f ( x ) = σ ( ∑ i w i x i + b ) f(x) = σ(\sum_{i}w_ix_i+b) f(x)=σ(iwixi+b)

y = f ( x ) = 1 1 + e − ( w T x + b ) y = f(x) = \frac{1}{1+e^{-(w^Tx+b)}}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值