数据分析实战45讲 笔记(六)数据分析要掌握的概念

1.商业智能BI、数据仓库DW、数据挖掘DM三者关系

百货商店利用数据预测用户购物行为属于商业智能,他们积累的顾客的消费行为习惯会存储在数据仓库中,通过对个体进行消费行为分析总结出来的规律属于数据挖掘

商业智能的英文是Business Intelligence,缩写是BI。商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金。

数据仓库的英文是Data Warehouse,缩写是DW。它可以说是BI这个房子的地基,搭建好DW这个地基之后,才能进行分析使用,最后产生价值。是数据库的升级概念,数据仓库量更庞大,更适合数据挖掘和数据分析。数据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘。

2.元数据与数据元

元数据(MetaData):描述其它数据的数据,也称为“中介数据”。

数据元(Data Element):就是最小数据单元。

举个例子,比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据。在图书这个元数据中,书名、作者、出版社就是数据元。

元数据最大的好处是使信息的描述和分类实现了结构化,让机器处理起来很方便。元数据可以对数据仓库的数据进行定义,刻画数据的抽取和转换规则,存储与数据仓库主题有关的各种信息。而且整个数据仓库的运行都是基于元数据的,比如抽取调度数据、获取历史数据等。

3.数据挖掘流程(数据库中的知识发现,KDD)

在数据挖掘中,有几个非常重要的任务,就是分类、聚类、预测和关联分析

   3.1 分类

         通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。

  3.2 聚类

        聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分。

  3.3 预测

       通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。

  3.4 关联分析

        就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。

4.数据预处理

   4.1 数据清洗

         主要是为了去除重复数据,去噪声(即干扰数据)以及填充缺失值。

   4.2 数据集成

         是将多个数据源中的数据存放在一个统一的数据存储中。

    4.3 数据变换

          就是将数据转换成适合数据挖掘的形式。比如,通过归一化将属性数据按照比例缩放,这样就可以将数值落入一个特定的区间内,比如0~1之间。

5.数据后处理

   将模型预测的结果进一步处理后,再导出。比如在二分类问题中,一般能得到的是0~1之间的概率值,此时把数据以0.5为界限进行四舍五入就可以实现后处理。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值