监督分类器总结
分类器具有学习能力的描述:通过数据提高分类器的分类表现!!!
1 监督回归问题中的:线性回归、多元线性回归、非线性回归
2 分类标准中的:伯努利分布的Logistic二分类和多项式分布的Softmax多分类
3 距离法则和投票法则的KNN
4 小规模数据十分效果的决策树
5 超平面方法的SVM
6 神经网络中的稀疏编码
1 线性回归、多元线性回归、非线性回归
从回归模型(包括单元线性和多元线性)到回归方程(包括单元线性和多元线性)
从回归方程(包括单元线性和多元线性)得到估计量(单元线性举例):
计算模型:Y尖 = B0 + B1 * X,计算B0和B1
估计方法与优化方法:平方和方法:min(Y-Y尖)的平方
对于多元线性回归中存在分类型变量的问题:将分类型变量进行编码来解决
最后非线性模型:g(Z)= g(B0 * X0 + B1 * X1 + B2 * X2 + B3 * X3 …… )
从这里可以引入我们下面要讲的Logistic,以及更新法则
2 Logistic && Softmax
常常作为神经网络激活函数的Logistic二分类和Softmax多分类都是贝叶斯概率的基础建立起来的理论。
Softmax是logistic回归模型在多分类问题上的推广,评分归一化(3类:0.82 0.18 0)
多个Logistic多分类:类与类之间不互斥
一个Softmax多分类:类与类之间互斥
3 KNN
总结:距离规则 + 投票规则 决定预测样本的归属问题。
通过已知实例来预测未知实例:现有的一堆被标签的数据堆,对于未知实例到底应该分类到哪一类中呢?通过欧式距离或者曼哈顿距离(在距离上可以依据实际问题进行改进)计算得到未知实例与已知实例中的top K个最近的“邻居”,邻居投票决定其未知实例的归属。
缺点很显著:算法空间和时间的复杂度都很高(大量空间存储已知实例,大量的计算距离消耗),还有很重要的一点是:当我们已知样本分布不平衡的时候,是不是未知实例很容易被主导样本误导(例:训练数据中A类样本50个,B类样本10个,就会出问题了)。
4 决策树
总结:贪心算下,自下而上(熵大者作为根节点),按分裂规则树形生长。
ID3算法使用信息增益作为不纯度;
C4.5算法使用信息增益率作为不纯度;
CART算法使用基尼系数作为不纯度
5 支撑向量机
起源于logistic回归(0/1分类模型)的分类标准,SVM就是特征空间的线性分类器:
线性可分:超平面线性拉开数据特征空间的距离,Gap(凸二次优化)越大,Confidence越大。
线性不可分:拉格朗日对偶性解决,KTT条件,维度一直高下去,无法找到超平面的问题(满足条件的超平面不存在),最终我们是引入核函数(计算在低维,分类表现在高维)
训练方式:通过标签数据来训练超平面
基本方法:one-against-all && one-against-one
6 神经网络
利用神经网络中神经元(卷积核)参数对某一状态稀疏编码(激活)出一个很抽象的感受(神经网络最大的创新),这个感受可以直接端到端地降维计算出一个具体的我们想要的解结构的关键部分。
训练就是学习和改变神经元参数,去使得解结构的关键部分朝着目标的梯度去更新。