论文笔记2《决策树分类优化算法的研究----(上)》

《硕士论文》 2010

部分摘要:ID3算法虽然很经典,但也有美中不足之处:第一,算法中使用了对数计算,而且计算过程复杂;第二,取值较多的属性被选择的机率比较大,即多值偏向问题。为了解决的这些问题,本文引入了泰勒公式和麦克劳林公式,对原算法进行化简,对于算法偏向于选取有较多取值的属性的缺点,用一个与属性取值个数相关的函数对简化后的属性信息增益进行修正。最后,用JAVA语言实现了改进前后的算法,并且在不同规模的数据集上进行仿真实验,把改进后算法分别与算法、算法进行比较分析,验证了改进后算法在构建决策树时所需的时间及分类准确率两个方面都优于其他两个算法。

算法改进:

(1)对于计算复杂度的改进对于算法的运算中多次要用到对数,通过引入泰勒公式和麦克劳林公式对算法中的熵、信息增益的计算进行化简,去除了对数运算,从而提高了算法的建树速度。

(2)多值偏向问题:在公式Gain(S,A)=E(S)-E(S,A)中,对于每一个节点来说E(S)都是一个定值,故可以选取属性的信息熵E(S,A)作为测试属性的比较标准。这样,在计算属性的信息熵时使用一个与属性取值个数相关的函数来调整属性的信息熵,以调整后新的信息熵作为标准来选取分裂属性。

具体展开:






































评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值