结构风险最小化
结构风险最小化是一种机器学习的准则,它是为了防止过拟合而提出来的策略。他的思想实在假设空间/损失函数以及训练集确定的情况下,选择一个经验风险和模型复杂度之和最小的模型,结构风险等于经验风险加上正则化项。
正则化
模型参数的训练是一个不断迭代循环,来找到一个函数来拟合数据集。当拟合程度过高,使模型过于复杂,导致模型泛化能力差,这个时候就需要正则化给损失函数加上一些限制,通过像模型添加额外参数,来规范模型在接下来的迭代循环中不至于过拟合。正则化可以确保引入适量的偏差来避免过度拟合。
线性回归
回归和分类都是监督学习的算法,不同的是分类的结果是离散的而回归的结果是连续的。线性回归的目标是找到一条直线,使得它尽可能地拟合数据集。
逻辑斯蒂回归
逻辑斯蒂回归是经典的分类方法,它属于对数线性模型,原理是根据数据对分类边界线建立回归公式,以此来进行分类。具有计算代价不高和易于实现等优点,同时也有容易欠拟合和分类精度不高等缺点。
Sigmoid与SoftMax函数
Sigmoid与SoftMax函数都是一种激活函数,可以将实数映射到(0,1)区间,用于分类任务。Sigmoid函数可以用来做二分类或多标签分类,SoftMax函数可以用来做多分类。Sigmoid函数的输出是每个类别的概率,而SoftMax函数的输出是每个类别的比重。
决策树
决策树是一种机器学习算法,可以用于解决分类或回归问题。他是一种以树形结构表达的预测分析模型,由节点和有向边组成。每个节点表示一个特征或属性,每个有向边表示一种可能的值或条件,每个叶节点表示一个类别或输出。
信息熵 条件熵 信息增益
信息熵是一种表示随机变量不确定性的度量,熵越大代表随机变量的不确定性就越大。
条件熵是在一定条件下,另一个随机变量的不确定性。
信息增益是在一个条件下,信息不确定性减少的程度。
线性判别分析LDA
线性判别分析LDA是一种监督学习的降维技术,它的目的是找到一个线性组合,使得不同类别的数据在低维空间中能够很好地区分开。LDA的思想是最大化类间均值,最小化类内方差。LDA在模式识别和机器学习中有广泛的应用,比如人脸识别等。
概率近似正确PAC
PAC学习框架是机器学习理论基础之一。概率近似正确PAC是一种计算学习理论,它用来描述一个学习算法在有限的样本和时间下能否找到一个近似的目标概念。“近似”是在取值上,只要和真实值的偏差小于一个足够小的值就认为”近似正确”;”可能”是在概率上,即只要”近似正确”的概率足够大就认为”可能近似正确”。
自适应提升AdaBoost
集成算法通常有两种方式,分别是套袋法(bagging)和提升法(boosting)。自适应提升AdaBoost是通过迭代地训练不同的弱分类器,并根据分类错误率调整样本权重和分类器权重,最后将这些弱分类器组合成一个强分类器。AdaBoost可以用于处理分类和回归问题,也可以与其他类型的学习算法结合使用。通俗的来讲就是提高那些被前一轮分类器错误分类的样本的权重,而降低那些被正确分类的样本的权重。