- 基本流程
- 商业理解 - 理解需求,定义目标
- 数据理解 - 探索数据,认知数据
- 数据准备 - 收集数据,数据清洗、集成等
- 模型建立 - 选择和应用模型,并加以优化
- 模型评估 - 检查模型,确认模型符合目标
- 上线发布 - 将获取的知识转化成报告或者实现数据挖掘过程
- 商业智能BI、数据仓库DW、数据挖掘DM间的关系
- 商业智能(Business Intelligent,缩写BI)
是基于数据仓库,经过数据挖掘后,得到商业价值的过程。 - 数据仓库(Data Warehouse,缩写DW)
相当于BI的地基。是数据库的升级概念,逻辑上都是通过数据库技术来存储数据,不过数据仓库的量更庞大。数据仓库由原有的多个数据来源中的数据进行汇总、整理而得。 - 数据挖掘(Data Mining,缩写DM)
数据挖掘的核心包括分类、聚类、预测、关联分析等任务。 - 数据仓库是金矿,数据挖掘是炼金术,商业报告是黄金
- 商业智能(Business Intelligent,缩写BI)
- 元数据和数据元
一本书的信息包括书名、作者、出版社、ISBN、出版时间、页数、定价等多个属性的信息,所有属性加起来就叫元数据,每个属性就是数据元- 元数据指描述其他数据的数据,也叫“中介数据”
最大的好处是使信息的描述和分类实现了结构化 - 数据元指最小数据单元
- 元数据指描述其他数据的数据,也叫“中介数据”
- 数据挖掘流程
数据挖掘英文解释为Knowledge Discovery in Database,简称KDD,也就是数据库中的知识发现- 数据挖掘的重要任务
- 分类
通过训练集得到分类模型,使用该模型对其他数据进行分类。数据可以分为训练集和测试集,训练集用于训练机器生成自我分类模型,然后通过该模型对测试集进行分类 - 聚类
将数据聚类成几个类别,常用于数据划分 - 预测
通过当前和历史数据预测未来趋势 - 关联分析
发现数据中的关联规则,广泛用于购物篮分析,或事务数据分析
- 分类
- 数据预处理
- 数据清洗
主要是去除重复数据,去干扰数据以及填充缺失值 - 数据集成
将多个数据源存放到同一个数据存储中 - 数据变换
将数据转换成适合数据挖掘的格式。
- 数据清洗
- 数据后处理 - 将模型预测的结果进一步处理后导出
- 白话数据概念(以追女孩为例)
- 商业智能会告诉你追哪个,成功率多大
- 数据仓库存储了女孩的相关信息,每个女孩的姓名、生日、爱好和联系方式等,具体信息就是数据元,加起来就是元数据
- 数据挖掘则会帮助你确定追哪个女孩,并整理好数据仓库,这里会使用各种算法帮助做决策。
- 分类算法
判断女孩属于御姐、萝莉、女王哪个分类 - 聚类算法
若认识的女孩过多,可以将女孩分成多个群组,再对群组进行分析决策 - 关联分析算法
可了解女孩的闺蜜是谁 - 数据清洗
若很多朋友都介绍了同个女孩,需要去重 - 数据集成
把不同朋友推荐的女孩信息整合 - 数据变换
数据统计的体重单位可能不同,需要转换成相同单位
- 分类算法
- 数据挖掘的重要任务