数据挖掘的功能

特征化

描述

根据目标类数据的特征或特性进行汇总。

例子

汇总各班男生身高高于175cm的爱好、身体体质等情况。

区分

描述

相同或者不同类对象同一“现象”进行比较分析得出想要的结论。

例子

今年华东地区为啥橘子比苹果买的好,分析今年的橘子比苹果的优势大?人们的消费水平变化了?人们的吃水果的观念变化了?

频繁模式、关联和相关性分析

频繁模式:数据中频繁出现的模式,存在多种类型,包括频繁项集、频繁子序列、频繁子结构。

频繁项集:一般指频繁地事务数据集中在一起出现的不同类对象集合,如超市许多顾客一起频繁购买的是奶粉和尿不湿。

频繁子序列:如顾客倾向于先购买便携机,再购买数码相机,然后再购买内存卡。

频繁子结构:可能涉及不同的结构形式如列表、图、树等,如果一个子结构频繁出现则称它为频繁子结构。

挖掘频繁模式导致发现数据中有趣的关联和相关性。

分类

描述

它找出描述区分数据类或概念的模型,以便能够使用模型*预测*类标号未知的对象的类标号。

对已发生过的事物分析得出结论用于推测类似新事物得出”预测”。

导出模型就需要分类规则:if-then 规则、决策树(类似于流程)、数学公式或者神经网络。

这里写图片描述

例子

超市商品售卖情况分为好、中、差三类,你想根据商品特性如价格、产地、品牌、种类来为这三类导出分类模型。

回归

描述

它找出某一情况同一影响属性影响程度变化的连续”函数“。

例子

想知道苹果在不同价格的销量。

分类与回归的区别

分类是大概的区分数据,数据值不需要连续主要目的是得到分类模型去对”新事物“进行归类,而回归力求得到一个函数,去预测属性值达到新的值时结果值是多少。

回归偏向于数据值,分类偏向于归类。

聚类

描述

对象根据最大化类内相似性、最小类间相似性的原则进行聚类和分组。

例子

人口集中分布图。

离群距点分析

数据集中可能包含一些数据对象,它与数据的一般行为和模型不一致~异常挖掘。

异常挖掘也是有意义的比如就可以通过数据分析及时发现异常,及时预防,避免没必要的情况。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值