数据挖掘概念

从大量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程,定义为“数据挖掘”。

数据挖掘主要基于:数理统计、人工智能、机器学习、人工神经网络等技术。

数据挖掘的最高境界:从数据中获取知识,辅助科学决策。

数据挖掘的功能主要包括:关联分析、聚类分析、分类、回归、时间序列分析和偏差甄别。

1、关联分析:尿布与啤酒、KFC的套餐、癌症与生活习惯,主要算法有Apriori算法。

    Apriori算法:首先从事件中集中寻找所有频繁出现的事件子集,然后在这些子集中发现可信度较高的规则。

2、聚 类:就是将数据对象划分成若干个类,在同一类中的对象具有较高的相似度,而不同类中的对象差异较大。

             如何度量对象的相似度? 二个对象间的距离越小,说明二者越相似,用距离度量对象的相似性应该是

                                           最自然的方法。

            聚类的算法:划分方法和层次聚类方法。

3、

 

转载于:https://www.cnblogs.com/sell/p/3222500.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值