Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。
根据线性回归模型我们只能预测连续的值,然而对于分类问题,我们需要输出 0 或 1,
我们可以预测:
当ℎ 𝜃 (𝑦) >= 0.5时,预测 𝑧 = 1。
当ℎ 𝜃 (𝑦) < 0.5时,预测 𝑧 = 0 。
对于上图所示的数据,这样的一个线性模型似乎能很好地完成分类任务。
线性回归模型,如果预测的值超过了【0,1】的范围,线性回归就不再适合了所以引入逻辑回归。
引入逻辑回归的同时,也引入了sigmoid函数。
目的是,通过已经确定的参数,这个参数是通过计算得到的(李宏毅),然后通过给定的x,去判断概率。
接下来就是判定边界:根据分布去假设模型
模型确定后,就是预测值与真实值之间的判断误差,进行估测。
再回到回归,回归的步骤:
- 找Model(一次二次等等去假设模型)
- 定义function set 里面某一个function
- 找最好的function
复习:
Step1:
Step2:似然函数,交叉熵
关于交叉熵,主要是描述两件事情之间的相互关系,对自己求交叉熵。
熵:可以表示一个事件A的自信息量,也就是A包含多少信息。
KL散度:可以用来表示从事件A的角度来看,事件B有多大不同。
交叉熵:可以用来表示从事件A的角度来看,如何描述事件B。
熵,定义:
KL散度:它是由A的熵和B在A的期望决定。当使用KL散度来衡量两个事件时,就可按照公式求出A和B 之间的对数差在A上的期望值。
例如,视频中讨论了如何通过样本点的均值和协方差来估测X的分布概率
利用极大似然函数的方法,最好的那组参数就是最大可能性的要找的参数值。
先进行统一格式,最终形成两点分布的交叉熵。最后用梯度下降方法求解最理想的w,b值即可。
Step3计算步骤2的最理想参数,即交叉熵之和最小的那组参数 w ∗ , b ∗ 就行了
再次讨论到多元的场合呢,如果有很多神奇宝贝的情况下呢?
构建好误差函数后,求解最小值即可。怎么样去解答比如两个参数的误差函数呢?-------用梯度下降法来求解是误差函数的最小的参数
需要注意的是,越是复杂的model并不一定能够在testing data 上给我们较好的结果,容易导致overfitting
那么在复杂的模型下,怎么去让处理这种可能的问题。
猜测:会不会与隐藏的某个参数有关,如神奇宝贝的品种有关,导致了模型的复杂性。所以需要重新设计模型,y=b+ ∑▒w_ix_i
对于这个预测函数,需要做的是,去猜测判断预测值很大程度上可能与那个值有关呢?(weight?height?HP?)去消除的思想,有关的直接化作1,无关的取0的思想。
承接上者的思想,进而学习正则化
正则化就是在误差函数的基础上,引入了λ这个参数。
原来的LOSS只考虑了预测的结果减去正确答案的平方。
理解:输入被杂讯干扰的时候的话,那么一个平滑的function,它会受到比较少的影响,而给我们一个更好的结果。λ值越大,代表smooth的那个正则化那一项他的影响就越大。得到的function也就越平滑平滑是对输入不敏感的。
但是过于平滑,不就是一直线水平了吗,所以需要调节这个λ参数。
至于为什么这个正则化的误差函数没有参数b,因为b不影响平滑程度。