对逻辑回归的一点理解
逻辑回归是什么
我认为逻辑回归可以概括为一句话:用回归的方法解决分类的问题,即对要预测的分类结果的概率值作为回归的对象,当概率值超过我们设定的某个阈值的时候,就将其看作某个类别
回归和分类是什么意思
回归和分类都是给定输入预测输出的问题,回归预测连续值,分类预测离散值
如何利用已知样本做预测
通常采用极大似然估计的方式,即假设我们观测到的样本,发生的概率就是最大的,以抛硬币为例,如果我们抛了4次硬币,分别得到正,反,反,正的结果,那么我们就假设我们得到的这个结果,就是最可能发生的事件,比如我们假设每次抛硬币正面为上的概率为p,则四次结果为h1( p) = p * ( 1 - p ) * (1 -p) * p = p2 * (1 - p)2 ,要使其最大,应该使p = 1/2 。
这是我在所有地方看到的解释,但我觉得有点奇怪,因为h1( p)应该解释为第一次正,第二次反,第三次反,第四次正的概率,那么我们就是要让第一次正,第二次反,第三次反,第四次正的概率最大化,然而根据我们的常识而言,抛四次硬币得到正反反正的概率和得到正反正反等等情况的概率应该都是一样的,我们假设正反反正的概率最大就显得有点奇怪,我们用一个与事实不太相符的假设得出了正确的结论。 所以我觉得不如假设我们观测的次数已经足够多了,那么根据大数定律,我们得到的现象的分布应该趋向概率分布了,因此我们观测到的现象就是最可能的结果,就刚才这个抛硬币的例子而言,我们现在假设我们抛出了足够多的次数,所以我们得到的现象分布就应该是概率分布,因此我们现在不考虑这四次结果出现的先后顺序,只考虑我们得到了两正两反的结果,假设抛出4次硬币,得到两正两反的概率最大,那么现在我们要最大化的概率不再是h1( p) ,而是h2( p)(p * ( 1 - p ) * (1 -p) * p)/C24,C24表示从四个不同的东西中挑两个,有C24种方法。但因为C24是一个常数,所以我们求使h2( p) 最大化的p,等同于求使h1( p)最大化的p
(黑体字部分纯属个人理解,如有错误请指正)
如何选择概率模型
刚才我们已经得到最大化观测概率的结论了,但还有一个问题就是我们如何用带有未知参数的函数来表达这个从观测到结果的模型,如果我们无法把概率模型表示出来,那我们也没有办法通过最大化概率的数值来求解我们想要的映射,通常我们选用sigmoid函数,至于原因嘛…我也还不太懂 >_<||