![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
一直在做梦
这个作者很懒,什么都没留下…
展开
-
西瓜书复习:模型评估与选择
错误率:分类错误的样本数占样本总数的比例误差:学习器的实际预测输出与样本的真实输处之间的差异,在训练集上的误差为训练误差或经验误差;在新样本上的误差称为泛化误差。导致过拟合的最主要因素是学习能力过于强大。过拟合是无法避免的,我们所能做的只是缓解。留出法:直接将数据集D划分为两个互斥的集合,训练集和测试集。需要注意的是,划分要尽可能保持数据分布的一致性,例如在分类任务中至少要保持样本的类别比例...原创 2019-04-20 22:27:53 · 185 阅读 · 0 评论 -
西瓜书复习:决策树
一棵决策树包含一个根结点,若干个内部结点和若干个叶结点。叶结点对应于决策结果,其他每个结点则对应于一个属性测试。每个结点包含的样本集合根据属性测试的节点被划分到子结点中。根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强的决策树,其基本流程遵循简单的分治策略。...原创 2019-04-25 20:56:27 · 620 阅读 · 0 评论 -
西瓜书复习:线性模型
线性模型试图学一个通过属性的线性组合进行预测的函数,即一般用向量形式学得w和b后,模型即确定。w直观表达了各属性在预测中的重要性。对离散属性,若属性值间存在序关系,可通过连续化将其转化为连续值。若不存在序关系,通常转化为one-hot向量。回归任务常用均方误差来度量,因此可让均方误差最小化,即均方误差有很好的几何意义,对应了欧氏距离。可用最小二乘法最小化均方误差来求解模型。最小二乘...原创 2019-04-21 21:27:29 · 345 阅读 · 0 评论 -
西瓜书复习:神经网络
感知机,仅由两层神经元组成,感知机的学习过程:感知机只有输出层神经元进行激活函数处理,只有一层功能神经元,学习能力非常有限。前馈神经网络,与感知机相比多了隐层。输入层仅是接受输入,不进行函数处理,隐层与输出层包含功能神经元。神经网络的学习过程,就是根据训练数据来调整神经元之间的“连接权”以及每个功能神经元的阈值。...原创 2019-04-17 22:15:32 · 573 阅读 · 0 评论 -
西瓜书复习:支持向量机
在样本空间中,划分超平面的线性方程为:w为法向量,决定了超平面的方向;b为位移项,决定超平面与原点之间的距离。样本中任意点x到超平面(w,b)的距离为:...原创 2019-05-04 22:15:11 · 750 阅读 · 0 评论 -
西瓜书复习:多分类学习
现实中常遇到多分类任务,有些二分类方法也可推广到多分类。考虑N个类别C1,C2,…,CN,多分类学习的基本思路是拆解法,将多分类任务拆为若干个二分类任务求解。具体来说,先对问题进行拆分,为拆出的每个二分类任务训练一个分类器,测试时,对这些分类器的预测结果进行集成获得最终分类结果。最经典的拆分策略有三种“一对一OVO”:将N个类别两两配对,产生N(N-1)/2个二分类任务。为区分类别Ci和...原创 2019-04-24 21:41:35 · 722 阅读 · 0 评论 -
西瓜书复习:贝叶斯分类器
贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。λij:将一个真实标记为cj的样本误分为ci所产生的损失,在样本x上的条件风险为我们的任务是寻找一个判定准则h,最小化总体风险即h为贝叶斯最优分类器,R(h)为贝叶斯风险,1-R(h*)反映了分类器能达到的最好性能。最小化分类错误率的贝叶斯最优分类器,即对每个样本...原创 2019-05-14 21:17:14 · 312 阅读 · 0 评论