数据挖掘主要解决四类问题

数据挖掘主要解决四类问题:
(1)分类问题:分类问题属于预测性的问题,但是它跟普通预测问题的区别在与其预测的结
果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75......)
训练的思路:对收集的特征/变量分别进行分析,寻找与目标0/1变量相关的特征/变量,然
后归纳出P(X=1)与删变量选出来的相关特征/变量之间的关系(不同方法归纳出来的关系
表达方式不同,如回归的方法是通过函数关系式,决策树方法是通过规则集......)
(2)聚类问题:聚类问题不属于预测性的问题,它主要解决的是把一群对象划分若干个组的
问题。聚类问题是根据所选定的指标,对一群用户进行划分。
训练思路:确定选择哪些指标对用户进行聚类;在选择的指标上计算用户彼此间的距离,距
离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都
有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直
线距离);聚类方法把bicentennial距离比较短的用户聚为一类,类与类之间的距离相对比
较长。
(3)关联问题
关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有
10000个人购买了产品,其中购买A产品的人是1000个,购买B产品的人是2000个,AB同时购
买的人是800个。
    支持度:指的是关联的产品(假定A产品和B产品关联)同时购买的人数占总人数的比例
,即800/10000=8%,有8%的用户同时购买了A和B两个产品;
    可信度:指的是在购买了一个产品之后购买另外一个产品的可能性,例如购买了A产品
之后购买B产品的可信度=800/1000=80%,即80%的用户在购买了A产品之后会购买B产品;
    提升度:就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品
的可能性之比,没有任何条件下购买B产品可能性=2000/10000=20%,那么提升度=80%/20%=4
(4)预测问题

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/28573466/viewspace-772406/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/28573466/viewspace-772406/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值