数据挖掘主要解决四类问题:
(1)分类问题:分类问题属于预测性的问题,但是它跟普通预测问题的区别在与其预测的结
(1)分类问题:分类问题属于预测性的问题,但是它跟普通预测问题的区别在与其预测的结
果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75......)
训练的思路:对收集的特征/变量分别进行分析,寻找与目标0/1变量相关的特征/变量,然
后归纳出P(X=1)与删变量选出来的相关特征/变量之间的关系(不同方法归纳出来的关系
表达方式不同,如回归的方法是通过函数关系式,决策树方法是通过规则集......)
(2)聚类问题:聚类问题不属于预测性的问题,它主要解决的是把一群对象划分若干个组的
问题。聚类问题是根据所选定的指标,对一群用户进行划分。
训练思路:确定选择哪些指标对用户进行聚类;在选择的指标上计算用户彼此间的距离,距
离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都
有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直
线距离);聚类方法把bicentennial距离比较短的用户聚为一类,类与类之间的距离相对比
较长。
(3)关联问题
关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有
关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有
10000个人购买了产品,其中购买A产品的人是1000个,购买B产品的人是2000个,AB同时购
买的人是800个。
支持度:指的是关联的产品(假定A产品和B产品关联)同时购买的人数占总人数的比例
支持度:指的是关联的产品(假定A产品和B产品关联)同时购买的人数占总人数的比例
,即800/10000=8%,有8%的用户同时购买了A和B两个产品;
可信度:指的是在购买了一个产品之后购买另外一个产品的可能性,例如购买了A产品
可信度:指的是在购买了一个产品之后购买另外一个产品的可能性,例如购买了A产品
之后购买B产品的可信度=800/1000=80%,即80%的用户在购买了A产品之后会购买B产品;
提升度:就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品
提升度:就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品
的可能性之比,没有任何条件下购买B产品可能性=2000/10000=20%,那么提升度=80%/20%=4
。
(4)预测问题
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/28573466/viewspace-772406/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/28573466/viewspace-772406/