Task1 随机森林

随机森林算法梳理
集成学习的概念
集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成算法的身影也随处可见,可见其效果之好,应用之广。
boosting bagging的概念、异同点
bagging :模型独立,互相平行
boosting:模型有序,逐步提升
装袋法的核心思想是构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估器的结
果。装袋法的代表模型就是随机森林。
提升法中,基评估器是相关的,是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的样本
进行预测,从而构成一个强评估器。提升法的代表模型有Adaboost和梯度提升树。
理解不同的结合策略(平均法,投票法,学习法)
随机森林的优缺点
RF的主要优点有:
 1.当存在分类不平衡的情况时,随机森林能够提供平衡数据集误
差的有效方法;
 2.训练和预测速度快;
 3.对训练数据的容错能力强,是一种有效估计缺失值的方法,当
数据集中有大比例的数据缺失时仍然可以保证准确率;
 4.能够有效地处理大的数据集;
 5.它能够处理很高维度的数据,并且不用做特征选择
 6.能够在分类的过程中可以生成一个泛化误差的内部无偏估计
(OOB error可以作为泛化误差的一个估计);
 7.能够检测到特征之间的相互影响以及重要性程度;
 8.不容易出现过度拟合(两个随机性);
 9.实现简单容易并行化。
RF的主要缺点有:
 1.对于许多统计建模者来说,随机森林给人的感觉像是一个黑盒
子,你几乎无法控制模型内部的运行,只能在不同的参数和随机
种子之间进行尝试,它剥夺了商业规则的易解释性。
 2.取值划分比较多的特征容易对RF的决策产生更大的影响,从而
影响拟合的模型的效果。
 3.单棵决策树的预测效果很差:由于随机选择部分属性,使得单
棵决策树的预测效果较差。
 4.随机森林在解决回归问题时并没有像它在分类中表现的那么好,
这是因为它并不能给出一个连续型的输出。当进行回归时,随机
森林不能够作出超越训练集数据范围的预测,这可能导致在对某
些还有特定噪声的数据进行建模时出现过度拟合。
随机森林在sklearn中的参数解释
criterion 不纯度的衡量指标,有基尼系数和信息熵两种选择
max_depth 树的最大深度,超过最大深度的树枝都会被剪掉
min_samples_leaf
一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样
本,否则分枝就不会发生
min_samples_split
一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分
枝,否则分枝就不会发生
max_features
max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃,
默认值为总特征个数开平方取整
min_impurity_decrease 限制信息增益的大小,信息增益小于设定数值的分枝不会发生
随机森林的应用场景
主要用于分类中,虽然随机森林也能做回归,但分类效果比较好。

Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随与我联系,我会及为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随与我联系,我会及解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值