粗糙集理论
粗糙集理论(Rough Set theory)是一个种处理数据分类的数据挖掘方法。当数据属于定性数据或不确定性数据,无法使用一般的统计方法时,粗糙集理论可以在信息不完整和信息不一致下,用来规约数据集合,发掘隐藏的数据阳性和数据相关性,以产生有用的分类规则。
粗糙集理论现在主要应用在①临床医疗诊断;②电力系统和其他工业过程故障诊断;③预测与控制;④模式识别与分类;⑤机器学习和数据挖掘; ⑥图像处理等方面。
粗糙集理论基础:
信息系统:是四元组(U,Q,V,f)其中U是对象集合,Q是属性集合,V是属性的值域,f是一种映射,反应对象集合之间值。
不可分辨关系IND(P)/等价关系:分类过程中,相差不大的个体被归于同一类。
下近似:集合X关于I的下近似(Lower approximation)是由那些根据现有知识判断肯定属于X的对象所组成的最大集合。
上近似:集合X关于I的上近似(Upper approximation)是由所有与X相交非空的等效类I(x)的并集,是那些可能属于X的对象组成的最小集合。
精确集合:上下近似相等。
粗糙集:上下近似不等。
正区域:下近似
负区域:上近似以外的区域。
边界:上下近似的差。
粗糙度:下近似集合的基数或势(元素个数)/上近似的基数或势(元素个数)。
粗糙集理论产生的分类规则: