#Python3入门机器学习之11.集成学习和随机森林
文章平均质量分 81
_凡一
这个作者很懒,什么都没留下…
展开
-
Python3入门机器学习之11.5 Ada Boosting 和 Gradient Boosting
Python3入门机器学习11.5 Ada Boosting 和 Gradient BoostingBoosting概述:集成多个模型,每个模型都在尝试增强(Boosting)整体的效果。1.Ada Boosting:Ada Boosting是这样的一个思路,以简单的回归问题为例:首先我们有原始的数据集,我们可以用某一种学习方法对原始的数据集进行学习,学习完成之后,显然所有的算法都会犯错误,相应的我们得到将数据点分成深色、浅色的结果。其中浅色的点就是被我们的模型近乎毫无差别的预测成功的点,而深原创 2020-07-22 16:33:52 · 321 阅读 · 0 评论 -
Python3入门机器学习之11.4随机森林和Extra-Trees
Python3入门机器学习11.4 随机森林和Extra-Trees1.随机森林:from sklearn.ensemble import RandomForestClassifierrf_clf = RandomForestClassifier(n_estimators=500, random_state=666, oob_score=True)rf_clf.fit(X, y)rf_clf.oob_score_2.Extra-Trees:from sklearn.ensemble原创 2020-07-22 15:40:32 · 991 阅读 · 0 评论 -
Python3入门机器学习之11.3 oob(Out-of-Bag)和关于Bagging的更多讨论
Python3入门机器学习11.3 oob(Out-of-Bag)和关于Bagging的更多讨论1.oob:对应的代码:oob_score=True从而知道哪些样本没有被取到而被用作测试数据集。2.关于Bagging的更多讨论:Bagging的思路极易并行化处理。因为是独立的训练若干子模型,所以可以很方便的进行并行处理。scikit-learn中可以传入参数“n_jobs”来完成并行处理。针对特征进行随机取样:Random Subspaces。既针对样本,又针对特征进行随机采样:Ran原创 2020-07-22 14:44:48 · 1186 阅读 · 0 评论 -
Python3入门机器学习之11.2 Bagging和Pasting
Python3入门机器学习11.2 Bagging和Pasting集成学习就是集成多个算法,让不同的算法对同一组数据进行分析得到结果,最终投票来看哪个结果是大家公认的更好的、更正确的结果。但是这样进行集成学习还是有问题,最大的问题就是:虽然有很多机器学习方法,但是从投票的角度看,仍然不够多。如果我们想保证有一个好的结果,我们希望有更多的投票者才能保证结果可信,类似于概率论里的大数定理。所以,我们要创建更多的子模型,集成更多子模型的意见。更加重要的是子模型之间不能一致,也就是说子模型之间要有差异性。怎原创 2020-07-22 10:34:29 · 259 阅读 · 0 评论 -
Python3入门机器学习之11.1什么是集成学习
Python3入门机器学习11.1 什么是集成学习1.什么是集成学习?用少数服从多数的方式集成多个模型算法进行数据处理,这种少数服从多数的方式称为hard voting。相应的,还有一种更重要的方式叫做soft voting。2.soft voting:将所有模型预测样本为某一类别的概率的平均值作为标准,概率最高的对应的类型为最终的预测结果。hard voting 与 soft voting的对比:如下图:模型 1:A - 99%、B - 1%,表示模型 1 认为该样本是 A 类型的概率为原创 2020-07-22 09:45:27 · 161 阅读 · 0 评论