Meachine Leaning

Meachine Leaning

决策树

  1. 决策树可以看作时if-then规则的集合,还可以看作给定特征条件下类的条件概率分布

  2. 决策树学习包括三个步骤:特征选择决策树生成决策树剪枝

  3. 决策树损失函数时正则化的极大似然函数,该损失函数下选择最优决策树是NP完全问题。通常采用启发时方法近似求解。

  4. 决策树生成算法:

    • ID3:使用信息增益作为特征选择方法

    G ( D , A ) = H ( D ) − H ( D ∣ A ) G(D,A)=H(D)-H(D|A) G(D,A)=H(D)H(DA)

    • C4.5:使用信息增益比作为特征选择方法

    G R ( D , A ) = G ( D , A ) H A ( D ) H A ( D ) = − ∑ i n ∣ D i ∣ D l o g ( ∣ D i ∣ D ) G_R(D,A)=\frac{G(D,A)}{H_A(D)}\\ H_A(D)=-\sum_i^n\frac{|D_i|}{D}log(\frac{|D_i|}{D}) GR(D,A)=HA(D)G(D,A)HA(D)=inDDilog(DDi)

    • CART:使用基尼指数作为特征选择方法。生成的是一颗二叉树

    G i n i ( p ) = ∑ ( k = 1 ) K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2 Gini(p)=\sum(k=1)^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2 Gini(p)=(k=1)Kpk(1pk)=1k=1Kpk2

  5. 决策树的剪枝:

    • 预剪枝:到一定深度就不再生成
    • 后剪枝:从下向上进行剪枝。如何剪枝后正则化的极大似然函数损失下降,则剪枝。损失函数:

L o s s ( T ) = ∑ t = 1 ∣ T ∣ N t H t ( T ) + α ∣ T ∣ Loss(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T| Loss(T)=t=1TNtHt(T)+αT

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
RBF Q-learning是一种基于径向基函数的增强学习算法,它结合了Q-learning的基本原理和径向基函数的非线性映射特性。在传统的Q-learning算法中,学习过程是基于状态和动作的简单线性组合,这种方法在处理复杂的状态空间和动作空间时存在一定的局限性。而RBF Q-learning通过引入径向基函数,能够对状态空间和动作空间进行非线性映射,从而更好地适应复杂的环境。 具体来讲,RBF Q-learning的基本原理是利用径向基函数对状态空间进行映射,将复杂的状态表示为一组简单的基函数的线性组合。这样可以大大降低状态空间的维度,减少了学习参数的数量,降低了计算的复杂度。在每个基函数的基础上,RBF Q-learning利用Q-learning的奖励更新规则,不断优化动作价值函数,从而实现针对复杂状态空间的强化学习。 RBF Q-learning的应用领域非常广泛,特别适合处理具有高维状态空间和大规模动作空间的问题。例如,在机器人控制、自动驾驶、游戏策略等领域,RBF Q-learning都能够发挥出色的性能。同时,RBF Q-learning也为研究者提供了一个新的思路,可以结合深度学习的方法,进一步提高强化学习算法在复杂环境下的表现。 总之,RBF Q-learning是一种结合了Q-learning和径向基函数的增强学习算法,通过非线性映射和奖励更新规则的探索,能够更好地适应复杂的状态空间和动作空间,具有广泛的应用前景和研究价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值