数据挖掘
文章平均质量分 87
qianzhihudie
..................................
展开
-
信息熵与增益
1,信息熵定义熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里则叫信息量,即熵是对不确定性的度量。从控制论的角度来看,应叫不确定性。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把信息定义为“用来消除不确定性的东西”。在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。当我们不知道某事物具体状原创 2017-01-22 13:51:11 · 593 阅读 · 0 评论 -
决策树算法(ID3)
基本的理论知识:信息熵:信息理论的鼻祖之一Claude E. Shannon(香农)把信息(熵)定义为 离散 随机事件 的出现概率。一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。计算公式H(x)原创 2017-01-22 16:25:08 · 341 阅读 · 0 评论 -
决策树算法(C4.5)
。定义:分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。分类本质上就是一个map的过程。C4.5分类树就是决策树算法中最流行的一种。算法简介:该算法的框架表述还是比较清晰的原创 2017-01-22 20:05:25 · 590 阅读 · 0 评论