数据挖掘:概念与技术(课程总结)
文章平均质量分 80
MissAquarius_gx
这个作者很懒,什么都没留下…
展开
-
2018-03-02 第一章:引论
1.1 为什么进行数据挖掘1.1.1 迈向信息时代 当代社会,数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。需要功能强大和通用的工具,从海量数据中发现有价值的信息,把这些数据转化成有组织的知识。这种需求导致了数据挖掘的产生。1.1.2 数据挖掘是信息技术的进化 数据挖掘可以看做是信息技术自然进化的结果。在今天,大量数据库系统提供查询和事务处理已经司空见惯,高级数据分析...原创 2018-03-11 17:13:33 · 360 阅读 · 0 评论 -
2018-03-09 第二章 认识数据
本章主要内容为:介绍数据的不同类型、描述属性数据的中心趋势、和散布的统计度量,以及数据的可视化技术。2.1 数据对象与属性类型 2.1.1 什么是属性 属性是一个数据字段,表示数据对象的一个特征。不同领域,叫法不同。 a. 属性(attribute):数据库和数据仓库领域; b. 维(dimension):数据仓库; c. 特征(feature):机器学习; ...原创 2018-03-12 15:10:44 · 488 阅读 · 0 评论 -
2018-03-22 第三章:数据预处理
3.1 数据预处理:概述3.1.1 为什么要对数据预处理? 数据要满足应用需求,必须是高质量的。高质量是指:准确性、完整性、一致性、时效性、可信性和可解释性。3.1.2 数据预处理的主要任务? 数据预处理的主要步骤是 (不互斥):数据清理、数据集成、数据规约和数据变换。3.2 数据清理 现实世界的数据一般是不完整的、有噪声的和不一致的、数据清理例程试图填充缺失的值、光滑噪声...原创 2018-03-24 17:07:05 · 543 阅读 · 0 评论 -
2018-03-24 第六章:挖掘频繁模式、关联和相关性:基本概念
6.1 基本概念6.1.1频繁模式与关联规则频繁模式:频繁地出现在数据集中的模式,包括:频繁项集、频繁序列模式、频繁结构模式 频繁项集:如频繁地同时出现在交易数据集中的商品的集合,如:面包和牛奶;频繁序列模式:频繁地出现在数据集中的序列,如:用户先买数码相机,再买内存卡;频繁结构模式:一个子结构可能涉及不同的结构形式,如子图、子树等,可能与项集或子序列结合在一起,频繁出现的子结构;关联规则:频繁模...原创 2018-03-26 12:03:57 · 713 阅读 · 0 评论