目录
3.1基本形式
线性模型
试图学得一个通过属性的线性组合来进行 预测的函数,即
向量形式为:
3.2线性回归
"线性回归" 试图学得一个线性模 型以尽可能准确地预测实值输出标记.
线性回归试图学得:
衡量
f(x) 与y之间的差别来确定w和b,
均方误差
是回归任务中最常用的性能度量,因此我们可试图让均方误差最小化,即
求解
称为线性回归模型的最小二乘"参数估计" 我们可将 E(w,b)
分到求导,得到
从而得到w和b的最优解:
3.3对数几率回归
考虑二分类任务,
输出标记 y
ε{0
1}
,而线性
回归模型产生的预测值
实值,于 是我们需将实值z
转换为0/1
值.
最理想的是"单位跃函数"
即若预
测值
大于零
就判为
正例小于零
则判
为反例,预
测值为
临界值
零则可任意判
别,
近似单位阶跃函数,如对数几率函数:
来替代广义线性模型的g函数。那么可以得到线性回归函数为:
3.4线性判别分析
其思想非常朴
素:
给定训练样例
法将样
例投影到
一条直线上使得同样例的投影
点尽可能
接近、
异类
样例
投影点
能远离
;在对
新样
本进
行分类
时,将其投
影到
同样的这条
直线
上,再根据投影
点的位置来确定新
样本
的类
别.
令
、
和
表示第i类示例的集合、均值向量、协方差矩阵。将数据投影到直线w上,同时考虑协方差尽可能大和类中心的距离也尽可能大,那么可以得到欲最大化的目标:
当两类数据同先验、满足高斯分布且协方差相等时, LDA
可达到最优分类.
其中 u
是所有示例的均值向量
3.5多分类学习
不夫一般性,考虑 N
个类别C1,C2,C3.....,CN多分类学习的基本思路是 "拆解法飞即将多分类任务拆为若干个二分类任务求解.具体来说,先对问题 进行拆分,然后为拆出的每个二分类任务训练一个分类器;
最经典的拆分策略有三种.
"一对一"
OvO
",一对 其余"
OvR
和"多对多"
MvM.
OvO
将这 N
个类别两两配对从而产生
N(N
1)/2
个三分类任务,例如
OvO 将为区分类别 Ci,Cj
训练 个分类器,该分类器把 D中的Ci 类样例作为正例,Cj作为反例。
OvR
则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N 个分类器.
MvM
是每次将若干个类作为正类,若干个其他类作为反类.
3.6类别不平衡问题
类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。
特点:
1.不均衡的类别分布:某些类别的样本数量明显少于其他类别。例如,在医疗诊断中,罕见病的患者比例可能非常低,而正常人的比例较高。
2.影响模型性能:大多数机器学习算法在处理不平衡数据时可能会表现出偏向于多数类的倾向,因为算法通常倾向于最小化错误率。这导致模型可能会偏向于预测多数类别,而忽略少数类别。
3.评估指标偏差:传统的评估指标如准确率(Accuracy)可能会误导,因为即使模型只预测多数类别,也可能获得高准确率。因此,需要使用更合适的评估指标如精确率(Precision)、召回率(Recall)、F1分数等来评估模型在不同类别上的表现。
解决方法:
1.重采样方法:包括过采样少数类别样本和欠采样多数类别样本
2.算法调整:调整算法参数或使用专门设计用于处理不平衡数据的算法
3.改变决策阈值:通过调整分类器的决策阈值,使其更倾向于对少数类别进行正确分类。
4.生成合成数据:使用生成模型(如GANs)生成更多的少数类别样本。
5.层级分类:将多个少数类别合并为一个类别,从而减少类别的数量,使得问题变得更平衡。