西瓜书-机器学习
Rachel_nana
学习R语言、python中……
展开
-
模型评估与选择
1.经验误差与过拟合错误率(error rate):分类错误的样本占样本总数的比例如果在个样本中有个样本分类错误,则错误率为,相应地,称为“精度”(accuracy),即“精度= 1-错误率”。误差(error):我们把学习器的实际预测输出与样本的真实输出之间的差异训练误差(training error)或经验误差(empirical error):学习器在训练集上的误差泛化误...原创 2019-08-04 22:26:05 · 519 阅读 · 0 评论 -
神经网络
这周主要学习了感知机、BP神经网络以及简单地对卷积神经网络的初探。1.感知机感知机(perceptron)是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对对损失函数进行纪晓...原创 2019-07-28 20:24:46 · 566 阅读 · 0 评论 -
EM算法
EM算法是一种迭代算法,由Dempster等人于1977年总结提出,主要用于解决含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代主要由两步组成:E步,求期望;M步,求极大。所以这一算法称为期望极大算法,简称EM算法。1.EM算法的引入概率模型有时既含有观测变量,又含有隐变量或潜在变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,...原创 2019-07-21 12:03:58 · 1218 阅读 · 0 评论 -
贝叶斯分类器
1.贝叶斯决策论贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。对于分类任务,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记,即此时,称为贝叶斯最...原创 2019-07-21 12:04:06 · 1305 阅读 · 0 评论 -
线性模型
这周主要学习了线性回归、对数几率回归、线性判别分析、多分类学习以及类别不平衡问题,着重讲解了前两个问题。线性模型基本形式:给定由d个属性描述对的示例,其中是第个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即一般用向量形式表示写成线性回归线性回归试图学得利用均方误差进行度量,让均方误差最小化,即均方误差对应常用的...原创 2019-06-30 19:02:00 · 9249 阅读 · 0 评论 -
支持向量机SVM原理及推导
本周内容总结1.间隔与支持向量分类学习的基本思想:基于训练集在样本空间找到一个划分超平面,将不同类别的样本划分开。特点:寻找位于两类训练样本“正中间”的划分超平面原因:该超平面对训练样本局部扰动的“容忍”性最好,所产生的分类结果最鲁棒,对未见示例的泛化能力最强。在样本空间,划分超平面可通过方程来描述,其中为法向量,决定了超平面的方向。b为位移项,决定了超平面与原点的距离。样...原创 2019-07-14 10:10:42 · 5177 阅读 · 2 评论 -
决策树
这周主要学习了决策树的几种划分选择、剪枝处理、连续值及缺失值的处理以及多变量决策树。一般地,一棵决策树包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应于决策结果,其他每个节点则对应于一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。从根节点到每个叶节点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例...原创 2019-07-07 16:34:21 · 2645 阅读 · 0 评论 -
集成与堆叠
一、集成学习介绍基础集成技术:最大投票法(max voting)、平均法(averaging)、加权平均法(weighted average)高级集成技术:堆叠(stacking)、混合(Blending)1.例子买车:1.问别人哪种车好2.上网查询其价格3.4S店去问4.综合各种信息买到自己想要的车最大投票方法通常用于分类问题。这种技术中使用多个模型来预...原创 2019-09-12 18:00:24 · 1634 阅读 · 0 评论