数据挖掘和机器学习
文章平均质量分 75
马面
这个作者很懒,什么都没留下…
展开
-
【数据挖掘概念与技术】学习笔记5-数据立方体技术
基本方体是数据立方体中泛化程度最低的方体。泛化程序最高的方体是顶点方体,通常用all表示。基本方体的单元是基本单元,非基本方体的单元是聚集单元。聚集单元在一个或多个维上聚集,其中每个聚集维用单元记号中的“*”表示。如n维数据立方体,令a=(a1,a2,...,an,measures)是一个单元,取自构成数据立方体的一个方体。如{a1,a2,...,an}中恰有m个值不是“*”,则a是m维单元。12原创 2013-11-14 01:15:38 · 18489 阅读 · 4 评论 -
【数据挖掘概念与技术】学习笔记4-数据仓库与联机分析处理
数据仓库的特征:面向主题的:数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。集成的:将多个异构数据源,如关系数据库、一般文件、联机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。时变的:数据存储从历史角度提供信息(如04-08年的数据)。数据仓库中的关键结构都隐式或显式地包含时间元素。非易失的:数据仓库总是物理的分离存放数据。由于原创 2013-11-08 01:41:18 · 2067 阅读 · 0 评论 -
【数据挖掘概念与技术】学习笔记6-挖掘频繁模式、关联和相关性:基本概念和方法(编缉中)
157原创 2013-11-22 01:36:29 · 2611 阅读 · 1 评论 -
【数据挖掘概念与技术】学习笔记1-引论
数据仓库:多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库:通过数据清理、数据变换、数据集成、数据装入、定期数据刷新来构造。数据仓库技术包括:数据清理、数据集成、联机分析处理(OLAP)。OLAP操作的例子包括上卷和下钻。数据仓库用数据立方体这种多维数据结构建模。知识发现(数据挖掘)过程:数据预处理(数据清理、数据集成、数据选择、数据变换)、数据挖掘、模式评估、知识表示。数原创 2013-11-04 23:26:12 · 1556 阅读 · 0 评论 -
【数据挖掘概念与技术】学习笔记2-认识数据
数据集由数据对象组成。一个数据对象代表一个实体。能常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如数据对象存放在数据库中,则是数据元组,即行对应数据对象,列对应属性。属性的类型有:标称属性、二元属性、序数属性、数值属性。原创 2013-11-06 01:20:28 · 1353 阅读 · 0 评论 -
【数据挖掘概念与技术】学习笔记3-数据预处理
有大量的数据预处理技术:数据清理可以用来清除数据中的噪声,纠正不一致。数据集成由多个数据源合并成一个一致的数据存储,如数据仓库。数据归约可以通过如聚集删除冗余特征或聚类来降低数据规模。数据变换可以用来把数据压缩到较小区间。原创 2013-11-06 23:19:27 · 1447 阅读 · 0 评论