随机森林

现在看我当时中科院人工智能学院面试时随机森林大部分说错了。我现在可以大体说出随机森林怎么弄的了,当然前提要理解决策树,建议去看周志华西瓜书里写的,非常详细,很不错

 

想想为什么要用随机森林,我以前想的集成学习是就是各个检测器各自分别检测,然后综合看他们的结果,比如10个里面有6个判定为异常就认为是异常,我以前就是这么单纯简单理解的,我感觉也没什么毛病啊。所以为什么要用集成学习呢。说不出为什么可能因为集成学习也是个黑箱(周志华讲集成学习那一章最后一段话就是说集成学习也是黑箱),你只知道它效果好但是说不出为什么,为什么要用集成学习。

不对,集成学习其实也是多个检测器投票,随机森林其实就是多个决策树检测器投票嘛,只是它的检测器是决策树,而一个决策树里实际上集成了多个检测器。每一个节点就是一个检测器。是这么个结构。

 

裴丹他们是弄出了上百个异常特征,想想这组成一个决策树是相当庞大的啊。裴丹14个检测器,因为每种检测器可以有不同的参数配置,所以这样算法来可以看作有133个检测器,是这么个意思。其实我的话就想把HTM加进去,HTM其实也是有不同的参数配置,你自己用过HTM studio你自己清楚的嘛,这样也好理解而很多。

我猜测,这里面基本都是一些传统的时间序列分析方法,没用什么机器学习的方法,可能因为在进行每个节点判断的时候,你可能如果每判断一次就要训练一次,就如HTM,那这样整个的随机森林的训练时间可能就会变得很长了,决策树的节点最好就是我输入一个值你立马输出一个值,所以你拿一个复杂的分类器去当决策树的节点似乎不太好,训练起来可能会超级耗时,决策树的节点可能适合那种简单的判断。那我要是想要结合HTM这种方法进行综合判断我该怎么做呢。我感觉就几个方法各自判断然后结果综合投票来决定,我觉得这样挺好的了,没必要非要扯一些高级的机器学习方法,就各自检测综合投票不挺好的么。

随机森林的随机体现在对训练样本和特征向量的分量都进行了随机采样《机器学习与应用》雷明

bagging好像就只是训练样本上随机,但是特征分量上没用随机,这是随机森林和bagging不同的地方。随机森林对bagging做了小改动。

 

集成学习泛化性能好,正好异常检测也是要有普适性

 

 

森林的意思应该就是多个决策树。

 

正因为有了这些随机性,随机森林可以在一定程度上消除过拟合,对样本进行采样是必须的,如果不进行采样,每次都用完整的训练样本集训练出来的多颗树是相同的。

 

每次运行的结果一般会不同因为随机森林具有随机性。

 

 

下面摘抄一个写得比较好的,可能比看理论书籍快些。

https://blog.csdn.net/qq547276542/article/details/78304454?utm_medium=distribute.pc_relevant_t0.none-task-blog-OPENSEARCH-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-OPENSEARCH-1.nonecase

 

这篇也不错,感觉CSDN上还是有些写得不错的,甚至感觉比七月在线写得要好些。更让人容易理解。特别是那些收藏量高访问量高的文章。

https://blog.csdn.net/Flying_sfeng/article/details/64133822?utm_medium=distribute.pc_relevant.none-task-blog-OPENSEARCH-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-OPENSEARCH-2.nonecase

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值