https://www.youtube.com/watch?v=nyxTdL_4Q-Q
Step 1
Bootstrapping 抽选数据集
或自助抽样法是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。
Step 2
每次构建单个的时候树 / root node / internal node的时候只使用 变量 或者 column的子集
Step 3
构建了非常多的树之后,用每个树来投票
评价一个树
问题:
因为构建每棵树的时候,使用的是有放回的数据,每棵树都有重复的数据和没有拿到的数据,没有拿到的数据称为out-of-bag samples,使用Out-of-bag samples来评价一棵树的价值就好了
调超参数
在构建单棵树的时候,每次只拿少部分的column来构建叶子,调整每次的column数量那么就是一种调整超级参数的办法
如果有Miss data怎么办
训练数据有miss data
填值(初值)
- category 填众数
- num填median
趋同性取值
-
建立相似性metrics,就是使用树来预测的时候,如果落在了于其他sample相同的叶子上,则计数加一
-
最后的预测值 = 其他sample的值*相似权值 之和
迭代
重复这个过程直到最后的结果不再变化,那么最后的值就为填值结果
测试有Miss data
- category
把该数值的组合和最后的结果的组合任意排列,然后用排列的数值来当做已知数据,再带入模型里面,看最后的预测结果是否与假设结果一致,取最高的即可。
简单点,取category的各种可能性,然后预测各自的结果,取vote最高的数值即可