逻辑回归
如果用图像化表示:
Logistical Regression的模型就是这样
Z = 求和WiXi + b
现在,来按照机器学习的三部曲来一步一步的进行。
第一步,选择模型 也就是function set
我们从这里可以看出,LR 是在线性回归的model前面加入了sigmod的function,好让线性模型的输出是介于0和1之间。他的输出就是概率。possibility
第二步,判断function 的好坏
我们选择一组测试集,编号从1到N, 假设这些数据是由function的possibility概率所定义出来的。
然后我们要去找一组w,b来去寻找这个possibility概率最大化的组合。
但是呢,本来我们是要找是的L最大化的w和b。
不过,我们取 - lnL,这样我们就相当于去找到是的这个 - ln L(w,b) 式子最小的w和b
也就是这两个式子是相等的:这就是最大似然估计
那我们就把x对应给一个y hate,那么y hate1 =1, y hate 2 = 1, y hate 3 = 0
那么,我么就可以拆开这个式子。使用
交叉熵把左边的式子对等给右边的式子。
由于 x1 和x2 都属于C1 类型,所以 y hate 1=1, y hate 2=1. 所以 1 - y 1 hate 和 1 - y 2 hate 都等于0 喽
然后带入y 3 hate = 0。 得到
我们就证明了上面的三个等式。
下面,我们对 L 取 负的自然对数,让一个取最大数的方程,变成一个取最小数的方程。
为什么要取自然对数呢?取自然对数是为了使乘除运算变为加减运算,更为方便
下面就是用导出了交叉熵的公式。
这里得出了第二步中的不同:
到这里,请记住这个公式!
交叉熵。
第三步
Generative model 对比 Discriminative model
大部分情况人们相信discriminative模型更好
但generative 模型在哪些情况有优势呢?
1. 当training data 数据比较少的时候。
这个时候就需要靠着几率模型来脑补在training data里面没有观察到的事情,来得到更准确的判断。generative model具有脑补的特性。
2. 当前有较大的noise。
有一笔数据,他的两个dimension维度都是class1 第一种类型,这个分类搞不好是错的。如果使用generative model 他会有模型的假设,有时候跟直觉看到的状况不一样,这样就可以一定程度避免因为表面特性导致的片面判断。
LR 的限制
考虑一个二分类为题,异或不可分
使用一些手段可以避免这个问题。特征转换。但通常并不时很容易知道怎么做,需要很多经验。
类似于多层叠加的LR, 多层感知机模型 --- 神经网络雏形
下面举一个小例子: