数据挖掘学习【01】——基础理论
【前言】已经学习数据挖掘有段时间了,一直都有没总结写东西,搞的前面学习的一些东西出现了遗忘,现在每天都来总结些一些前面学过的东西,一来给自己以后复习时使用,二来希望对看这个文章的人有所帮助,在做这些总结,我想的话都是以最通俗易懂的话来进行分析,希望所有人都能轻松的看懂。
一、基础概念部分整体的框架:
要学习数据挖掘,首先我们要明白什么是数据挖掘,所谓数据挖掘就是从数据中挖掘知识,用专业的话说就是:从大量数据中挖掘有趣模式和知识的过程。
那么要进行数据挖掘,我们必不可少的就是需要数据了,下面这张图就是数据挖掘的整体结构:利用相关技术处理可挖掘的数据形成有趣的模式(Knowledge)
二、概念详解
1、数据挖掘
数据挖掘:从大量数据中挖掘有趣模式和知识的过程。
2、数据
数据仓库:是一个从多个数据源收集的信息存储库,存放在一致的模式下、并且通常驻留在单个站点上。
事务数据:一般地说,事务数据库的每个记录代表一个事务,如顾客的一次购物、一个航班订票,或一个用户的点击。
其他类型数据:时间相关或序列数据、数据流、空间数据(如地图)、工程设计数据(如建筑地图、集成电路)、超文本和多媒体(如文本、图像、视频、音频)、网和网状数据(如社会和信息网络)等
3、数据挖掘功能
数据挖掘功能用于指定数据挖掘任务发现的模式。
数据挖掘任务一般就有两种:
(1)描述性:描述性数据挖掘任务刻画目标数据中数据的一般性质。
(2)预测性:预测性数据挖掘任务在当前数据上进行归纳,以便做出预测。
特征化与区分:
数据特征化是目标类数据的一般特性或特征的汇总,其输出可用多种形式:饼图、条图、曲线、多维数据、多维数据立方体。
数据区分:是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行对比。目标类和对比类可以由用户指定,例如:用户可能希望将上一年销售增加10%的软件产品与同一时期销售至少下降30%的软件产品进行比较。
挖掘频繁模式、关联和相关性:
频繁模式是在数据中频繁出现的模式。
用于预测分析的分类和回归:
分类:它找出描述和区分数据类或概念的模型(或函数)以便能够使用模型预测类标号未知的对象类标号。
聚类分析:
离群点分析(异常挖掘):数据集中可能包含一些数据,他们与数据的一般行为或模式不一致,这些数据对象是离群点。