绪论AND模型评估与选择
数据集
数据集(Data Set):一组数据记录的集合,类似数据库的一个表(1范式)
每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)
或“样 本”(sample).
反映事件或对象在某方面的表现或性质的事项,称为“属性”(
attribute)或“特征”(feature);属性上的取值,称为“属性值”(
attribute value)。
属性张成的空间称为“属性空间”(attribute space)、“样本空间”(
sample space)或“输入 空间”。由于空间中的每个点对应一个坐标
分类,回归,聚类
简单总结:分类用交叉熵损失函数,回归用MAE损失(L1)(平均绝对误差)、MSE损失(L2)(均方误差损失)、smooth L1损失(Smooth L1损失是L1与L2损失的结合)
分类:若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为 “分类”(classification)。图像识别、指纹识别、声音识别等对只涉及两个类别的“二分 类”(binary classification)任务,通常称其中一个类为“正类”(positive class), 另一个类为“反类”(negativeclass);涉及多个类别时,则称为“多分 类”(multi-class classification)任务
回归:若欲预测的是连续值,例如西瓜成熟度0.95、0.37, 此类学习任务称为“回归”(regression)。销售量预测等
聚类:将训练集中的数据分成若干组称为聚类(clustering),每组称为一个“簇”(cluster)。如对西瓜做“聚类”,这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜”,甚至“本地瓜”“外地瓜”
线性回归VS逻辑回归
(1)逻辑回归和线性回归首先都是广义的线性回归。(2)经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数。(3)线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。或者说,线性回归模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。(4)线性回归一般用于回归问题,逻辑回归一般用于分类问题(可由二分类推广至多分类)
特征提取与特征选择
特征提取:将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征。
特征选择:从特征集合中挑选一组最具统计意义的特征,达到降维。
两者的共同作用:
1 减少数据存储和输入数据带宽;
2 减少冗余;
3 低纬上分类性往往会提高;
4 能发现更有意义的潜在的变量,帮助对数据产生更深入的了解
主成分分析(PCA)和线性判别分析(LDA)原理简介
主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。
因此需要找到一个合理的方法,在减少需要分析的指标的同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。
PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。
LDA(这里指的是fisher’s linear discriminant)把线性分类看成是数据降维的一种应用。考虑一个二分类问题,假设输入D维向量x,我们通过线性变换将它投影到一维空间上:
y=wTx
偏差和方差
模型选择方法
留出法
K 折交叉验证