非线性
简单来说就是将Kernel Trick引入到Logistic Regression。
逻辑回归是已知的,并用作线性分类器。它用于在特征空间中提出一个超平面,以将属于一个类的观测值与不属于该类的所有其他观测值分开。因此,决策边界是线性的。健壮而高效的实现方式很容易获得(例如scikit-learn),可以使用逻辑回归作为线性分类器。
在网上看到两种方法:
核逻辑回归
要想逻辑回归解决一些非线性问题,我们可以为其添加不同的核。首先要想添加核,需要满足一定的条件----最优解w是z-space(我理解的就是三维空间不知道对不对)的线性组合,比如:
SVM 中的α是对偶问题中的拉格朗日乘子(SVM的结果就是一堆线性组合的解,其中的系数就是对偶问题的解α)
那么要判断一个模型的最优解是否是z-space的线性组合我们就需要使用representer theorem。
那么我们对比LR逻辑回归的最优解,正好满足我们这个要求,那么我们就直接求解β不就好了,然后就可以加核升维了。
K-Mean逻辑回归
对于非线性问题,我们有的可以通过升维来解决,但是也有一些情况,即使我们升维了也不能很好的分类,线性分类其实就是边界分类,分类最重要的就是找到边界。所以更高效的方法就是找到边界然后升维。首先是找到边界:一个需要分类的平面内可以包含非常多的点,如果一起升维计算,那计算量很大,我们可以先用K-means
算法找出冗余的点,然后将它们去除,留下边界的点。如下图所示:
然后下一步开始升维。这里可以使用高斯核,拉普拉斯核,或者其他的。这样做出来的效果,比直接升维的效果要好很多。
以上总结如有不对,请评论指出。
极大似然
之前学习中没太明白极大似然和交叉熵损失函数的关系,今天又看了看。
在分类问题中,交叉熵的本质就是似然函数的最大化
交叉熵的最小化等价于似然函数的最大化
忽略概化方面的任何问题,假设我们要选择一个模型(在网络体系结构代表的模型系列中),以使观察到的数据的可能性最大化。即,我们想要找到使数据的可能性最大化的参数θ的值。我们将使用负对数似然作为成本函数,通过随机梯度下降之类的方法进行处理。
负对数似然为:
向量y也可以解释为在同一空间上的概率分布,恰好将其所有概率质量赋予单个结果(即发生的结果)。我们可以称其为经验分布。在这种解释下,上述负对数似然的表达式也等于称为交叉熵的量。
最后上一下公式