机器学习----逻辑回归模型基础

| 1.1 引言

上一篇文章《机器学习---分类入门》里我们阐述了分类问题中你需要寻找一条最佳线的线性方程;为了确定分割数据的最佳线,我们需要一种对线进行评分的方法。

| 2.1 分析数据及方程

首先,我们来分析一下单独的数据点:

理想情况下,如果数据点是幸存的乘客,它将位于线路的右侧并且远离线路。如果它是一个没有幸存的乘客的数据点,那么它离左边的线路很远。它离这条线越远,我们就越有信心它在这条线的正确一侧。

对于每个数据点,我们将获得一个介于 0 和 1 之间的值。我们可以将其视为乘客幸存的概率。如果该值接近 0,则该点将在线路的左侧很远,这意味着我们确信乘客没有幸存。如果该值接近 1,则该点将在该线的右侧很远,这意味着我们相信该乘客确实幸免于难。值 0.5 表示该点直接落在线上,我们不确定乘客是否幸存。

| 2.1.1 Sigmoid方程

计算该分数的方程式如下,尽管直观看起来比实际方程式重要得多。回想一下,这条线的方程是 0 = ax+by+c 的形式(x 是票价,y 是年龄,a、b 和 c 是我们控制的系数)。数字 e 是数学常数,大约为 2.71828。

这个函数被称为 sigmoid函数

Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。

Tips : 逻辑回归不仅给出预测(幸存与否),而且给出概率(此人幸存的概率为 80%)

| 3.1 可能性

为了计算我们的线路有多好,我们需要对我们的预测是否正确进行评分。理想情况下,如果我们以很高的概率预测乘客幸存(意味着数据点在线路的右侧很远),那么该乘客实际上幸存了。

因此,当我们正确预测某事时,我们会得到奖励,如果我们预测错误,我们会受到惩罚。这是似然方程。直观上来看依然比方程式更重要。

注 : 这里 p 是从前一部分幸存下来的预测概率。

可能性将是一个介于 0 和 1 之间的值。该值越高,我们就认为我们的线就越好。

为了理解上面所提到的内容,让我们看几个可能性:

  • 如果预测概率 p 为 0.25 并且乘客没有幸存,我们的得分为 0.75(好)

  • 如果预测概率 p 为 0.25 并且乘客幸存下来,我们的得分为 0.25(差)。

我们将每个数据点的所有单独分数相乘以获得我们的线的分数。因此,我们可以比较不同的线路以确定最佳线路。

假设为了便于计算,我们有 4 个数据点。

我们通过将四个分数相乘得到总分:

0.25 * 0.75 * 0.6 * 0.8 = 0.09

这个值总是很小,因为我们的模型很可能完美地预测了一切。一个完美的模型对于所有正例的预测概率为 1,对于所有负例的预测概率为 0

Tips : 可能性是我们如何评分和比较最佳拟合线的选择。

| 4.1 写在最后

学习不是一蹴而就的,机器学习所涉及的内容非常宽泛,今天介绍了一些数学公式,感觉基础比较扎实的同学可以尝试推导。不过作为一种面向应用的方式方法,在不同的场景下同样有着不同的解决方式,希望今天的内容可以帮你了解什么是逻辑回归,下一篇我们会介绍机器学习常用库Sclkit-Learn来从编码的角度创建一个逻辑回归模型。

勘误:

由于我自己也不是资深编程高手,在创作此内容时尽管已经力求精准,查阅了诸多资料,还是难保有所疏漏,如果各位发现有误可以公众号内留言,欢迎指正。

你要偷偷学Python,然后惊艳所有人。

-END-

感谢大家的关注

   你关心的,都在这里

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值