![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计学习
CAM-TAY
这个作者很懒,什么都没留下…
展开
-
统计学习方法:概论 (一)
损失函数:0-1损失:预测和实际相同时损失为0,不同时为1。平方损失:预测与实际的误差平方值。绝对损失:预测与实际的误差绝对值。对数损失:-logP(Y|X),在当前模型下对于输入X预测得到的真实类别Y的概率为P(Y|X),模型好的情况下这个值应该为1,对应的对数值应该为0,最小化对数损失。经验风险与结构风险:经验风险:在训练数据上的累积误差,即所有样本的损失之和。结构风险:除了考虑经验风险,还考...原创 2018-06-12 17:41:02 · 153 阅读 · 0 评论 -
统计学习方法:感知机 (二)
感知机:线性分类模型;二分类;输入为特征向量,输出为实例类别 (+1或-1);判别模型。公式:线性可分:存在某个超平面,能够将正例和负例划分到超平面两侧。损失函数:其中M为误分类点的集合梯度:沿着梯度方向函数值增长最快随机梯度下降法:随机挑选一个误分类点,即满足y(wx+b)<=0,使其梯度下降根据随机梯度下降法,我们可以发现直到收敛,w和b可以表示为:其中每一个代表使用每个样本i进行更新对...原创 2018-06-12 21:45:04 · 152 阅读 · 0 评论 -
统计学习方法:朴素贝叶斯法 (四)
主要思想:通过训练数据学习先验概率分布P(Y=c)和条件概率分布P(X=x|Y=c),从而学习联合概率分布P(X=x, Y=c)。所以是生成模型。计算公式:后验概率最大化,将实例分到后验概率最大的类中。每一个概率可通过极大似然估计 (通过采样估计真实分布中的参数值,在参数的所有可能取值中寻找一个值能够最大化采样结果的可能性)得到。而极大似然估计的准确性依赖于样本量的大小,样本量越大,越能反映真实分...原创 2018-06-13 11:01:58 · 201 阅读 · 0 评论 -
统计学习方法:决策树 (五)
目标:找到一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力。基本过程:从根结点开始,递归地选择最优特征,根据该特征对训练数据进行分割,直到每个子集都被分到叶结点上,有了明确的分类;但是这样得到的决策树在已知数据上表现完美,但在未知数据上表现未知,可能发生过拟合,所以需要进行剪枝,去掉过分细分的叶结点。 如果特征数量过多,可以在开始时就进行特征选择,只使用对训练数据有足够分类能力的特征...原创 2018-06-13 19:54:11 · 229 阅读 · 0 评论 -
统计学习方法:逻辑斯蒂回归与最大熵模型 (六)
逻辑斯蒂回归模型 logistic regression逻辑斯蒂分布函数 logistic distribution 对应下面两张示意图摘自维基百科逻辑斯蒂密度函数二项回归模型:将x对应的样本归于概率值较大的分类...原创 2018-06-14 22:12:22 · 291 阅读 · 0 评论