文章目录
1.随机森林(RDF)
随机决策森林[1986]是决策树的集成。分支节点基于特征向量的特定特征值f[i](即下图中判断图片上/下部分是否为蓝色)根据阈值 τ i \tau_i τi执行二元分类,每个叶子存储最终标签。每棵树独立预测,最终使用多数投票方案用于预测特征向量的最终标签。
训练:
搜索最好的f[i]和 τ i \tau_i τi以获得最大的信息增益。
将数据集Q划分为左分区 Q l Q_l Ql和 Q r Q_r Qr之后的信息熵为:
H ( Q ∣ f [ i ] , τ i ) = ∣ Q l ∣ ∣ Q ∣ H ( Q l ) + ∣ Q r ∣ ∣ Q ∣ H ( Q r ) H(Q|{f[i], \tau_i})={|Q_l|\over|Q|}H(Q_l)+{|Q_r|\over|Q|}H(Q_r) H(Q∣f[i],τi)=∣Q∣∣Ql∣H(Ql)+∣Q∣∣Qr∣H(Qr)
分类:
p ( c ∣ x j ) = 1 T ∑ t = 1 T p t ( c ∣ x j ) p(c|x_j)={1\over{T}}\sum_{t=1}^{T}p_t(c|x_j) p(c∣xj)=T1∑