对于熵的个人理解:
实际上,熵是一个描述事物混乱程度的一个指标.在机器学习中:
- 自信息: 对于一个事件发生的概率 携带的信息量 (概率取对数加负号)
- 信息熵(香农熵): 用来一个事物的多种状态的信息量,可以理解为它是一个期望,(发生概率 * 自信息 求合计)
- 联合熵
- 交叉熵
结论:
- 在贝叶斯网络中,会假设一个先验分布,目的是为了反映随机变量在观测前的不确定性。在进行模型训练时,减小熵,同时让后验分布在最可能的参数值周围形成峰值。
- 在做分类任务的参数估计时,尤其是在神经网络中,交叉熵往往作为损失函数用来更新网络权重。
- 在树模型算法中,熵的作用也是不可或缺,尤其是在使用ID3信息增益、C4.5增益率时,通过使用熵来划分子节点,从而可以构造出整棵树。