商业智能(BI Business Intelligence)
基于数据仓库,经过数据挖掘,得到商业价值的过程。
数据仓库(DW Data Warehouse)
是数据库的升级概念,通过数据库技术来存储数据,将原有的多个数据源中的数据进行汇总、整理得到,数据在进入数据仓库前,必须消除数据中的不一致性。
数据挖掘(DM Data Mining)
数据挖掘的核心包括分类、聚类、预测、关联分析等任务。
元数据和数据元
可以将一类事物的多个属性信息定义为元数据,即描述其它数据的数据。使信息的描述和分类实现结构化。
数据元是最小的数据单元。
数据挖掘的流程
数据挖掘的英文解释叫KDD(Knowledge Discovery in Database ),即数据库中的知识发现。
- 分类
通过训练集得到分类模型,然后用这个模型对其他数据进行分类。 - 聚类
通过相似度对数据聚类成几个类别,用聚类做数据划分。 - 预测
通过当前和历史数据来预测未来趋势。 - 关联分析
在数据中发现关联原则。
在数据预处理中,进行:数据清洗、数据集成,以及数据变换。
-
数据清洗
去除重复数据、干扰数据以及填补缺失值 -
数据集成
将多个数据源中的数据存放在一个统一的数据存储中。 -
数据变换
将数据转换成适合数据挖掘的形式。
数据后处理是将模型预测的结果进行进一步处理后再导出。
白话数据概念
(我把原专栏的性别换了一下,嘿嘿)
比如,有两个男生同时追你。
商业智能会告诉你哪个更适合你。
数据仓库中存放了两个男生的相关信息。每个男生的数据有单独的文件夹,里面包含姓名、生日、身高、爱好等信息,这些具体的信息就是数据元,加起来叫做元数据。
数据挖掘会帮助你确定接受谁,整理数据,使用各种算法,帮你决策。可能用到分类算法。理工男、正太、阳光型等等。如果认识的男生很多,可以用聚类算法,将他们分成多个群组,再对每个群组的特性进行了解。关联分析法会告诉你他们经常和谁在一起。
然鹅,像我们这中高冷的小仙女,以上假设并不实际。咳咳,把场景换成在相亲的时候。。。
由于数据来源比较多,可能多个大妈给你推荐了同一个男生,就需要数据清洗,进行去重,把不同大妈推荐的男孩信息合成一个,叫做数据集成,不同渠道获得的同一类数据的单位可能不同,比如身高单位是米,还是厘米,就需要进行数据变换。
最后进行数据可视化,可以直观地显示结果。