06 学数据分析要掌握哪些基本概念?
商业智能BI(Business Intelligence)、数据仓库DW(Data Warehouse)、数据挖掘DM(Data Mining)之间的关系是怎样的?
商业智能BI:
- 它是基于数据仓库,经过数据挖掘后,并获得了商业价值的一个过程。举例来说:数据仓库是金矿,数据挖掘是炼金术,那么商业报告就是最后的成品——黄金。
数据仓库DW(数仓):
- 数仓就好比是BI这个房子的地基,只有搭建好了DW这个地基之后,才可以被分析、被使用,并产生价值。
- 数仓就好比是数据库的升级版,都是利用数据库的技术来进行存储数据,但数仓的储存量更大,更适合用于数据挖掘和分析,而数据库可理解为就是一项技术。
- 数仓可将多个数据来源的数据进行汇总、整理所得。数据在存储到数据仓库前必须消除掉数据中的不一致性,方便后续的数据挖掘和分析。
数据挖掘DM:
- 数据挖掘的核心包括分类、聚类、预测和关联分析等任务,通过这些任务我们可以从数据仓库中得到我们想要的结果,比如商业报告。
总结:
- 我们以百货商店的例子来帮助理解。首先百货商店通过顾客购买过商品的用户购买数据来预测用户的购物行为属于商业智能,商店积累顾客的消费行为并存储在数据仓库中进行保存,通过对个体进行消费行为的分析来总结出个体购买的规律则属于数据挖掘。
元数据和数据元是什么?以及它们之间的区别是什么?
- 元数据:用来描述其他数据的数据。也就是说用来描述一类事物(其他数据)的一套元数据信息(数据)。
- 比方说图书的信息中包括了书名、作者、出版社、ISBN、出版时间和定价等多个属性的信息,我们可以把这些属性定义成一套图书的元数据。
- 数据元:就是最小的数据单元。
- 在以上图书的例子中,书名、作者、出版社就是数据元。
元数据有哪些好处呢?
- 元数据最大的好处就是使得信息的描述和分类实现了结构化,让机器处理起来更加方便。
- 元数据可以很方便地应用于数据仓库。比如说数仓中有数据和数据之间各种复杂关系,元数据可以对数仓中的数据进行定义,刻画数据的抽取和转换规则,存储与数仓主题有关的各种信息。而且数仓的运行都是基于元数据的,如抽取调度数据、获取历史数据等。
- 通过元数据可以帮助我们很方便的管理我们的数仓。
数据挖掘的流程是怎样的?
数据挖掘中的几个重要任务:
- 分类:就是指通过训练集得到一个分类模型,然后利用这个模型对其数据进行分类
- 一般来说,数据可分为训练数据集和测试数据集。训练集是用来给机器训练模型的,通常是人们整理好训练数据,以及这些数据对应的分类标识,通过训练,机器产生自我分类的模型,然后机器便可拿着这个模型对测试数据集进行分类预测。同样如果测试集中得出了预测结果,我们就可以利用测试结果进行验证,从而了解分类器的表现如何。
- 聚类:聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,反之不在一起的相似度小或者差异性大。通常是利用聚类来做数据划分。
- 预测:就是通过当前和历史数据来预测未来趋势,可以更好地帮助我们识别机遇和风险。
- 关联分析:就是发现数据中的关联规则,被广泛应用于购物篮分析或者事务数据分析中。
数据挖掘流程:
-
-
首先输入我们收集到并已经处理好的数据,然后对数据进行预处理(包括特征选择、维规约、规范化和选择数据子集)。预处理通常是将数据转换成我们想要的格式,然后再对数据进行挖掘,最后通过后处理(包括模式过滤、可视化、模式表示)的到我们想要的信息。