数据挖掘导论

数据挖掘从60年代的文件处理发展到现在的数据仓库和Web挖掘。数据预处理占据大部分工作,包括数据清理、集成和归约。关联分析、分类和聚类是主要任务,涉及Apriori、FP-growth、决策树、支持向量机等算法。时间序列数据挖掘关注相似性搜索、聚类、预测等,预测技术涵盖线性和非线性模型。
摘要由CSDN通过智能技术生成

20世纪60年代,从文件处理演化到数据库系统;

20世纪70年代,演化到关系数据库,联机事务处理(OLTP)将查询看做只读事务;

80年代中期到现在,研究分布性、多样性和数据共享等问题,还有基于Internet的全球信息系统;

80年代后期到现在,出现的数据库结构是 数据仓库,可将多个一种数据源在单个站点以统一的模式组织存储;数据仓库技术包括 数据清理、数据集成 和 联机分析处理(OLAP);数据仓库通过数据处理、数据变换、数据集成、数据装入、和定期数据刷新来构造;

90年代到现在,基于Web的数据库系统,基于XML的数据库系统和Web挖掘;


有趣的模式表示知识。模式兴趣度的客观度量有 规则的支持度(support)(满足规则的样本百分比)和置信度(confidence)(规则成立的条件概率P(Y|X) ),通常与阈值关联。

数据挖掘研究还发表在 数据库、统计学、机器学习和数据可视化 的杂志上。


据统计 在一个完整的数据挖掘过程中 数据预处理要花费 60%左右的时间 而后的挖掘工作仅占总工作量的 10%左右 数据预处理主要包括数据清理,集成和归约

数据清理是处理数据中的遗漏和清洗脏数据 .

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值