数据挖掘主要解决四类问题

最新推荐文章于 2024-06-13 09:00:30 发布

cuiyanysgxt4455

最新推荐文章于 2024-06-13 09:00:30 发布

阅读量467

点赞数

文章标签：数据结构与算法

数据挖掘主要解决四类问题：
(1)分类问题：分类问题属于预测性的问题，但是它跟普通预测问题的区别在与其预测的结

果是类别（如A、B、C三类）而不是一个具体的数值（如55、65、75......)

训练的思路：对收集的特征/变量分别进行分析，寻找与目标0/1变量相关的特征/变量，然

后归纳出P（X=1）与删变量选出来的相关特征/变量之间的关系（不同方法归纳出来的关系

表达方式不同，如回归的方法是通过函数关系式，决策树方法是通过规则集......)

(2)聚类问题：聚类问题不属于预测性的问题，它主要解决的是把一群对象划分若干个组的

问题。聚类问题是根据所选定的指标，对一群用户进行划分。

训练思路：确定选择哪些指标对用户进行聚类；在选择的指标上计算用户彼此间的距离，距

离的计算公式很多，最常用的就是直线距离（把选择的指标当作维度、用户在每个指标下都

有相应的取值，可以看作多维空间中的一个点，用户彼此间的距离就可理解为两者之间的直

线距离）；聚类方法把bicentennial距离比较短的用户聚为一类，类与类之间的距离相对比

较长。

（3）关联问题
关联分析有三个非常重要的概念，那就是“三度”：支持度、可信度、提升度。假设有

10000个人购买了产品，其中购买A产品的人是1000个，购买B产品的人是2000个，AB同时购

买的人是800个。
支持度：指的是关联的产品（假定A产品和B产品关联）同时购买的人数占总人数的比例

，即800/10000=8%，有8%的用户同时购买了A和B两个产品；
可信度：指的是在购买了一个产品之后购买另外一个产品的可能性，例如购买了A产品

之后购买B产品的可信度=800/1000=80%，即80%的用户在购买了A产品之后会购买B产品；
提升度：就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品

的可能性之比，没有任何条件下购买B产品可能性=2000/10000=20%，那么提升度=80%/20%=4

。

（4）预测问题

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/28573466/viewspace-772406/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/28573466/viewspace-772406/

cuiyanysgxt4455

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘主要解决四类问题

数据挖掘主要解决四类问题：(1)分类问题：分类问题属于预测性的问题，但是它跟普通预测问题的区别在与其预测的结果是类别（如A、B、C三类）而不是一个具体的数值（如55、65、75......)训练的思路：对收集的特征/变量...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。