4/13作业

决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,
最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。

熵:熵 Entropy 是“混乱”程度的量度。系统越有序,熵值越低;系统越混乱或者分散,熵值越高。
"信息熵" (information entropy)是度量样本集合纯度最常用的一种指标。
当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。
“信息熵”是度量样本集合纯度最常用的一种指标 ,假定 当前样本集合 D 中第 k 类样本所占的
比例为 p k ( K =1, 2, ..., | y |) ,则 D 的信息熵定义为 
     
Ent(D)的值越小,则D的纯度越高      

 


决策树优点:
(1)速度快:计算量相对较小,且容易转化成分类规则。只要沿着树根向下一直走到叶,
沿途的分裂条件就能够唯一确定一条分类的谓词。
 
(2)准确性高:挖掘出的分类规则准确性高,便于理解,决策树可以清晰的显示哪些字段比较重要。
       
(3) 非参数学习,不需要设置参数。
缺点:
(1)缺乏伸缩性:由于进行深度优先搜索,所以算法受内存大小限制,难于处理大训练集。

(2)为了处理大数据集或连续值的种种改进算法(离散化、取样)不仅增加了分类算法的额外开销,
而且降低了分类的准确性,对连续性的字段比较难预测,当类别太多时,错误可能就会增加的比较快,
对有时间顺序的数据,需要很多预处理的工作。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值