数据中的知识发现KDD和机器学习概念

数据中的知识发现的过程

(1)数据清洗:消除噪声和删除不一致的数据。
(2)数据集成:多种数据源可以组合在一起
(3)数据选择:从数据库中提取与分析任务相关的数据
(4)数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式
(5)数据挖掘:基本步骤,使用智能方法提取数据模式。
(6)模式评估:根据某总兴趣度度量,识别代表知识的真正有趣模式
(7)知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。

数据挖掘中的有趣模式(挖掘到知识)的特征。

(1)易于被人理解。
(2)在某种确信度上,对于新的检验数据是有效的。
(3)是潜在有用的。
(4)是新颖的。

模式兴趣度的客观度量

(1)X =>Y的的关联规则,一种客观度量基于是规则的支持度(support)。规则的支持度表示事物数据库中满足规则的事物所占的百分比。支持度可以取概率P(X U Y),其中X U Y 表示同时包含X和Y的事务. support(X=>Y) = P(X u Y)
(2)关联规则的另一种客观度量是置信度(confidence),他评估所发现的规则的确信程度。置信度可以取条件概P(X I Y) ,即包含X也包含Y的概率 .confidence(X=>Y) = P(Y I X)

机器学习的概念

机器学习考察计算机如何基于数据学习(或提高他们的性能)。其主要应用领域之一是,计算机程序基于数据自动的学习识别复杂的模式,并做出智能的决断。

web搜素引擎的本质是大型数据挖掘应用

(1)爬行:决定应该爬过那些页面和爬行频率。
(2)索引:选择被索引的页面和决定构建索引的范围。
(3)搜素:决定如何排列各个页面,广告投放。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值