- 博客(3)
- 收藏
- 关注
原创 决策树、随机森林算法
在分类任务中,分类后某一组中同一类别的物体越纯(概率越高),熵值越低,所以熵值可以作为衡量标准。如果是连续值,先对数据进行由小到大排序,再对每一个数据进行切分(二分),然后计算每一次切分的信息增益,选择信息增益最大的切分(连续值离散化)信息增益(ID3)的问题:不能解决非常稀疏的特征(假设某个特征和编号一样,每一类都是不同的,此时熵计算就为0)信息增益:表示特征X使得类Y的不确定性减少的程度(分类后的专一性,希望分类后的结果还是同类在一起)限制深度,叶子节点个数,叶子节点样本数,信息增益量等。
2024-01-02 16:12:26 364 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人