数据挖掘
lizhengnanhua
这个作者很懒,什么都没留下…
展开
-
数据挖掘笔记(一)
1.数据挖掘定义:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2.不能在原数据库上做决策而要建造数据仓库的原因:传统数据库的处理方式和决策分析中的数据需求不相称,主要表现在:⑴决策处理的系统响应问题⑵决策数据需求的问题⑶决策数据操作的问题 3.数据仓库的定义W.H.Inmon的定义:数据仓库是一个面向原创 2013-05-28 08:21:22 · 4100 阅读 · 0 评论 -
数据挖掘笔记(二)
1.主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。 从信息管理的角度——在一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度——一原创 2013-05-28 08:23:43 · 3546 阅读 · 0 评论 -
数据挖掘笔记(三)—数据预处理
1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。3.数据挖掘中使用的数据的原则应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。4.处理空缺值的方法:忽略该记原创 2013-05-28 09:19:30 · 59624 阅读 · 3 评论 -
数据挖掘笔记(四)—定义及广义知识
1数据挖掘分类:从数据分析角度出发,数据挖掘可以分为两种类型:描述型数据挖掘——以简洁概述的方式表达数据中的存在一些有意义的性质。预测型数据挖掘——通过对所提供数据集应用特定方法分析所获得的一个或一组数据模型,并将该模型用于预测未来新数据的有关性质。2 广义知识的概念(1)定义:广义知识是指类别特征的概括性描述知识,也称为概念描述。它反映同类事物共同性质,是对数据的概括、精炼和抽象。广原创 2013-05-29 17:46:39 · 4812 阅读 · 0 评论 -
Apriori算法详解之【一、相关概念和核心步骤】
感谢红兰整理的PPT,简单易懂,现在将其中精彩之处整理,与大家分享。一、Apriori算法简介: Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校原创 2013-06-09 10:39:06 · 174191 阅读 · 30 评论 -
Apriori算法详解之【二、伪代码和例子】
上一篇文章中对Apriori算法进行了简单的描述(Apriori算法详解之【一、相关概念和核心步骤】http://blog.csdn.net/lizhengnanhua/article/details/9061755),现在用伪代码实现,及对经典例子进行描述(红兰PPT上之摘抄)。一、Apriori算法伪代码实现:伪代码描述: // 找出频繁 1 项集 L1 =find原创 2013-06-09 10:55:53 · 54329 阅读 · 4 评论 -
数据的归一化处理
一、 归一化的作用是:将数据去掉量纲的影响。简单的讲,由于数据单位不一致,故需将不同的数据进行格式化,使之在指定的范围内 (比如在0~1之间)。二、归一化方法:1、线性函数转换:y=(x-MinValue)/(MaxValue-MinValue)说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。2、对数函数转换:y=lg(x)原创 2013-06-19 19:03:09 · 21766 阅读 · 0 评论 -
数据的抽取的非正态性处理
若抽取样本不正态,说明数据选取有遗漏或问题,虽说从理论上来讲是不可取的,但可以通过将数据正态化来充分利用现有数据。 正态化过程是非线性转化的过程,这样做,会改变原始数据的分布形态,故结果的准确性就会降低。因此,通过将数据正态化处理后得到的推论,要经过数据选取的验证处理。(通常,可以这么处理,样本数据的2/3作为线性转换的样本,剩余作为验证。)。 数据正态化的常用方法有:原创 2013-06-19 16:46:02 · 3683 阅读 · 0 评论