线性模型
基本形式
常见线性函数 y = wx+b,比如历史数据的每日销售来预测某一天,某一个季度,某一年的销售情况,好做应对措施。
w(i)在预测中扮演重要角色,可以看出每个属性对y值的影响程度,w值越大,权重越高,当然正负亦可。
线性回归
线性模型,其实是连续型的,想要做分类,可以用“阈值”离散化,这样就可以继续使用了。
有这样一个数据集D,且是离散,存在“序”关系,比如说高、中、低,三种属性,将其变成为 {1.0,0.5,0.0};
如果不是序关系,有K个属性,可转为K维向量,比如"西瓜" “南瓜” "黄瓜"可转化为 (0,0,1,) (0, 1,0),(1,0,0)
w和b 如何确定,就得看f(x)和y之间的差别(均方误差最小)
均方误差最小化方法一般用“最小二乘法”,找到一条直线,让样本到直线上的欧氏距离之和min,这个实用性很高,文本计算也会用到这种方法,一定要记住。
除了简单的一元回归,还有多元回归,这种在实际业务场景中使用更为频繁。
对数线性回归:(一种非线性函数音声)
对数几率回归
看Z=w^Tx+b作为一个分割线,
大于Z=w^Tx+b的判定为类别0,
小于Z=w^Tx+b的判定为类别1。
分段函数数学性质不太好,既不连续也不可微。一般做优化任务,目标函数最好是连续可微的。所以就用到了对数几率函数。
其实,LR 模型就是在拟合Z=w^Tx+b这条直线,使得这条直线尽可能地将原始数据中的两个类别正确的划分开。
对数几率回归虽然是回归,但是却是一种分类学习方法,不需要假设数据分布就可以把类别和近似概率预测,且它的任意阶求导后都是凸函数,可求最优解。
线性判别分析(LDA)
经典的监督维数技术(比如人脸识别,舰艇识别等图形图像识别领域中广泛被应用),若W是一个投影矩阵,LDA 是将样本投影到N-1维空间,属性数降低,这样就达到了降维目的。
原始数据一般都会超过二维,投影后大多不会是直线,而是一个低维的超平面。
主成分分析(PCA)也是降维,同样是降维,两者区别在哪儿呢?
1 LDA有监督,PCA无监督;
2 LDA降维最多降到k-1的维数,而PCA无限制。
3 LDA可降维,可分类。
部分内容来源于:https://blog.csdn.net/ruthywei/article/details/83045288
多分类学习
多分类思路:拆解成若干个二分类
一般: 一对一、一对其余、多对多
eg:N个类别两两配对,就有N(N-1)/2个二分类
OVO:将预测最多的类别作为最终分类结果,比如左边的C3 预测出来有3个。
OVR:将唯一一个正类标记为最终分类结果。
如果数据类别很多,OVR 比OVO更耗时耗力,类别较少,OVR更好,它的每个分类器都被使用训练样例,而OVO每个分类都仅用了2类。
类别不平衡问题
分类任务中不同类别的训练阳历数目差别很大,比如有998个反例,仅有2个正例。
如果m+和m- 数目相等则y/(y-1) >1,预测为正例。