文章目录
1. L1正则化能够起特征选择的作用
L1范数:在正则化的过程中会趋向于产生少量的特征,而其他的特征都是0(因为L1会使得参数矩阵变得稀疏,参数尽可能地接近0)。因此L1不仅可以起到正则化的作用,还可以起到特征选择的作用(类似Dropout)。
2. 判别模型与生成模型定义与联系
监督学习可划分为判别式模型和生成式模型。简单地说,判别式模型是针对条件分布建模,而生成式模型则针对联合分布进行建模。换句话说,二者目的都是在使后验概率最大化,判别式是直接对后验概率建模,但是生成模型通过贝叶斯定理这一“桥梁”使问题转化为求联合概率。
给定训练数据(X,Y),X为特征集合,Y为类别标签,对于想要预测的一个样本x,我们要预测它的类别y,通过求得最大的条件概率P(y|x)作为x的预测类别。
- 判别式模型得到P(y|x)方法:
根据训练数据直接确定分类分界面,直接拟合决策函数y=f(x)(设定阈值分类)或条件概率P(y|x),即计算P(y|x),直接取得最大的概率作为预测类别。 - 生成式模型得到P(y|x)方法:
对每一类都建立一个模型,学习出每个类别的联合分布P(X,Y),最后通过贝叶斯公式P(y|x)=P(xy)/P(x)求出所需要的条件概率P(y|x)取最大作为预测类别。
不管是生成式模型还是判别式模型,它们最终的判断依据都是条件概率 P(y|x),但是生成式模型先计算了联合概率P(x,y),再由贝叶斯公式计算得到条件概率。因此,生成式模型可以体现更多数据本身的分布信息,其普适性更广。
在实际分类问题中,判别式模型可以直接用来判断特征的类别情况;而生成式模型需要加上贝叶斯公式,然后应用到分类中。但是,生成式模型的概率分布可以有其他应用,就是说生成式模型更一般更普适。不过判别式模型更直接,更简单。两种方法目前交叉较多。由生成式模型可以得到判别式模型,但由判别式模型得不到生成式模型。
常见判别模型:KNN,感知机,决策树,逻辑回归,随机森林、Boosting系列(GBDT梯度提升数、AdaBoost、XGBoost),最大熵模型,SVM,条件随机场,神经网络等。
常见生成模型:朴素贝叶斯法(Naive Bayiss)、隐马尔科夫模型(HMM)、混合高斯模型(Mixtures of Guassian)、AODE分类器、Latent Dirichlet Allocation(隐式狄利克雷分配模型,LDA)、Restricted Boltzmann Machine(受限玻尔兹曼机)。
举个例子:
四个样本
判别式模型
一个样本对所有类的后验概率和为1。
生成式模型
所有联合概率和为1.
3. 偏差、方差、过拟合、欠拟合
欠拟合 训练集测试集偏差大
正常拟合 训练集测试集偏差小 训练集测试集方差小
过拟合 测试集方差大
偏差与方差对应的解决方法:
- 高偏差(无法拟合训练数据,欠拟合):换一个更大的模型或网络,模型训练久一点,增加特征,降低正则化
- 高方差(过拟合):增大数据集,正则化,减少特征
Bagging方法:通过合并多个模型降低泛化误差的方法(故每个模型都希望是欠拟合的,高偏差低方差),Bagging方法中所有分类器权重相同,能够降低模型的方差,即总分类器对数据扰动的承受能力更好,从而改善模型过拟合问题。
boosting方法:能够降低模型的偏差,改善模型的欠拟合问题
4. 均值方差协方差
E[X+Y] = E[X] + E[Y]
E[XY]=E[X]E[Y] XY独立时成立
Var[X+Y] = Var[X]+Var[Y]+2Cov[X,Y]
Cov[X,Y] = Cov[Y,X]=E[(X-E[X])(Y-E(Y))] 大于0 X,Y正相关 小于0X,Y负相关 等于0不相关
5. 为什么SVM不采用01损失(交叉熵损失)而采用Hinge损失?
Hingeloss只需要正确类的预测概率和其他类的预测概率差值超过Δ,而不需要概率越大越好,能够很好地防止过拟合地发生。
CrossEntropyLoss要求尽可能地得分高,可能会造成一定程度的过拟合,模型不太会兼顾全部的样本。
Hinge loss会把更多的注意力放在没有分类分的很好的那些样本上,不会再注意分类好的样本了,类似Focal Loss。
6. 重采样(欠采样和过采样) 上采样和下采样
重采样中的欠/过采样是对于整个数据集而言,而上下采样是针对单个图像而言。
重采样用于解决数据集不同类别样本不均衡问题。
- 欠采样:减少样本较多的类别数据量以保证样本均衡。
- 过采样:欠采样在一定程度上防止过拟合,但是牺牲了数据。过采样是一种增加样本少的类别样本的采样方法,如SMOTE采样。
SMOTE算法的基本思想是对每个少数类样本 xi ,从它的最近邻中随机选择一个样本,然后在xi和其k近邻内一个样本之间的连线上随机选择一点作为新合成的少数类样本。
上、下采样是针对单个图像样本而言的。
下采样: 缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。
**上采样(upsampling)**原理:图像放大几乎都是采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。
7. 传统特征提取方法
HoG
Harris
SIFT
SURF
8. 霍夫曼滤波
哈夫曼编码是一种字符编码方式,是可变长编码的一种,1952年提出,依据字符在文件中出现的频率来建立一个用0,1串表示各字符,使平均每个字符的码长最短的最优表现形式。应用于图像压缩和大容量存储。
为了正确解码,可变长编码必须满足,二元前缀码的性质:任何字符的代码都不能作为其他字符代码的前缀。
例如:
每次对所有概率进行排序,融合最小的两个概率,当出现概率相等的时候将融合的排在前面。
通过这种方式构建树,每个符号对应的编码即从根节点到叶子节点的码。
平均比特率=Σ符号出现概率*码长
带权路径长度=Σ深度* 叶子节点权重值
9. 参数估计与非参数估计
参数估计:先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。
最大似然估计 最大后验概率 贝叶斯估计
非参数估计:不假定数学模型,可用于任意分布,直接用已知类别的学习样本的先验知识直接估计数学模型。
直方图密度估计 核密度估计
我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估计问题。如果我们研究观测的对象,很难说这些观测的数据符合什么模型,参数估计的方法就失效了,我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。
参考
10. 常见优化方法
梯度下降法(一阶)、共轭梯度法、牛顿法(二阶)、拉格朗日乘数法(带约束的优化问题)
11. 树的节点数量问题
叶子节点数量比度为2节点多一个
设树中度为210的节点个数分别为n2,n1,n0,总边数为edge。
n = n0+n1+n2
edge = n -1
edge = n1 + 2*n2
故 n0 = n2 + 1 即叶子节点数量比度为2节点多一个。
深度为n的满a叉树的节点个数
a
n
−
a
+
1
a^{n}-a+1
an−a+1