集成学习
Panpan Wei
机器学习,数据挖掘,自然语言处理,深度学习
展开
-
集成学习-Adaboost
Adaboost是集成学习中经典的算法之一。Adaboost算法,英文全称为:Adaptive Boosting,即自适应增强,是一种典型的Boosting算法。对于集成学习,对于给定的数据集,学习到一个较弱的分类器比学习到一个强分类器容易的多,boosting就是从弱学习器出发,反复学习,得到多个弱分类器,最后将这些弱分类器组合成强分类器。Adaboost算法主要的工作是以下两点。1...原创 2020-01-26 13:44:18 · 408 阅读 · 0 评论 -
集成学习-bagging
bagging集成学习中最为经典的算法之一。Bagging算法的基本思想是:自助采样和投票表决Bagging就是,有放回采样m个样本,这件事进行T(T一般是奇数)次,这样就得到了T个不相同的训练集,分别用于取训练一个基学习器。因为样本集的构成不同,这T个基学习器就是不同的。而测试集则用这T次自助采样都没有采到过的那部分样本构成。投票表决:训练出的T个基学习器用于样本预测时,按少数服从多...原创 2020-01-26 13:32:33 · 1893 阅读 · 0 评论 -
集成学习-Stacking
在集成学习中,结合策略也是影响集成模型性能的重要因素之一。传统的结合策略有多数投票、加权平均等。Stacking的本质是设计合适的结合策略,达到比传统结合策略更优的集成效果。首先,Stacking训练一组基学习器,用以参与后续的集成构建。其次,算法将这些学习器的输出和期望的样本标签视为新的学习任务,通过机器学习或其他策略得到一个新的模型,其中模型的输入为基学习器的输出,目的是通过构建...原创 2020-01-14 11:21:57 · 843 阅读 · 0 评论 -
在集成学习中能否将随机森林中的基分类器(决策树)替换为线性分类器或K-近邻。
随机森林是属于Bagging类的集成学习。Bagging的主要好处是集成后的分类器的方差,比基分类器的方差小。Bagging所采用的基分类器,最好是本身对样本分布较为敏感的(不稳定的分类器),这样的话Bagging才能发挥本身的性能。对于线性分类器或者K近邻都是较为稳定的分类器,对于这样的分类器本身的方差就比较大,所以他们作为基分类器使用Bagging并不能原有基分类器的基础上获得更好的表现,甚至...原创 2019-12-18 13:53:38 · 1770 阅读 · 0 评论 -
处理不平衡数据的方法
最近在编程序的时候碰到了不平衡的数据,在处理这类数据的时候可以有以下三种方法:第一种:上采样是指把小众类的样本复制多份。第二种:下采样是从多数类样本剔除掉一部分或将大多数的样本选取部分样本第三种:SMOTE方法其中smote方法是上采样中最常用到的方法。他的思想是合成新的少数类的样本,合成的策略是对每一个少数类样本a,从他的最近领域中随机选择一个样本b(这个样本还是少类样本...原创 2019-12-18 13:29:58 · 748 阅读 · 0 评论 -
偏差和方差的理解
偏差指的是由所有采样得到的大小为m的训练数据集训练出来的所有模型的输出的平均值和真实模型输出之间的偏差。偏差通常是由于我们对学习算法做了错误的假设所导致的,比如真实模型的某个二次函数,但是我们假设模型是一次函数。由偏差所带来的误差通常在训练误差上就能体现出来。方差指的是由采样得到的大小为m的训练集训练出的模型的输出的方差。方差通常是由于模型的复杂度相对于训练样本数m过高导致的。比如一共有100...原创 2019-10-20 14:48:15 · 523 阅读 · 0 评论 -
机器学习试题
1. 隐马尔可夫模型三个基本问题以及相应的算法说法正确的是( )A.评估—前向后向算法B.解码—维特比算法C.学习—Baum-Welch算法(向前向后算法)D.学习—前向后向算法答案选择ABD,解析前向、后向算法解决的是一个评估问题,即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。Baum-Welch算法解决的是一个模型训练问题,即参数估计,...原创 2019-07-31 21:29:15 · 1201 阅读 · 0 评论 -
机器学习试题
1. 习题1(SPSS基础)SPSS的界面中,以下是主窗口是( )A.语法编辑窗B.数据编辑窗口C.结果输出窗口D.脚本编辑窗口正确答案:B解析:SPSS是属于数据分析软件,当然主窗口是在数据编辑上。2. 习题2(分类与聚类)以下哪些方法不可以直接来对文本分类?A.KmeansB.决策树C.支持向量机D.KNN正确答案...原创 2019-07-30 14:29:25 · 2475 阅读 · 0 评论 -
经典测试题总结
一,选择题(皆为单选):1以下谁是二进制思想的最早提出者?a,伏羲;b,姬昌;c,莱布尼茨;d,柏拉图。2,以下哪个概念和公孙龙的《指物论》中的“指”字含义相近?a,变量;b,数组;c,对象;d,指针。3,蔺相如,司马相如;魏无忌,长孙无忌。下列哪一组对应关系与此类似?a,PHP,Python;b,JSP,servlet;c,java,java script;d,C,C++。...原创 2019-07-30 11:30:07 · 405 阅读 · 0 评论 -
Adaboost算法——详细讲解
最近在做集成学习的时候,对Adaboost非常感兴趣,就自己复现了这个程序。首先提升方法是基于这样的一个思想:对于一个复杂的任务来说,通将多个专家的判断进行适当的综合所得到的判断,这样得到的结果会比单个专家的判断要好。Adaboost做法的核心问题,是通过提高前一轮分类器分类错误的样本的权值,降低分类分类正确的样本权值,对于那些没有本分类正确的样本会得到后面分类器更多的关注。然后可以产生很...原创 2019-05-30 20:19:35 · 5323 阅读 · 1 评论 -
集成学习多样性度量总结
上一篇博客讲了集成学习中成对的多样性度量,博文链接如下https://blog.csdn.net/jodie123456/article/details/89341835在本篇博文中,总结一下非成对的多样性度量的方法。1.2 非成对多样性度量与成对的多样性度量不同,非成对的的多样性度量直接定义在多分类器系统上,首先引入如下符号:()为个样例中的第个样例,为对正确分类的分类器的数目,...原创 2019-04-23 10:54:36 · 3594 阅读 · 7 评论