一、数据挖掘的定义
1. 数据的定义:
数据通常被定义为事实、观察或记录的集合,包括数字、文本、图像、声音或任
何可以被记录和存储的信息。
2. 数据挖掘的定义:
从大量数据中提取出有趣的(非平凡的、隐含的、以前未知的和潜在
有用的)模式或知识。
3. 知识的定义:
在数据挖掘中,知识通常被定义为从数据中抽取、推断或发现的有意义、有用的
信息或模式。
4. 评价知识的有意义:
- 典型性:本质的、普遍的、有代表性的知识
- 新颖性:还未被发现的有价值的知识
- 时效性:在当下或未来某个时间范围内可以辅助决策的知识
5. 评价知识的有趣性
- 准确性:能反映数据的真实情况
- 实用性:简洁可用、易于理解
6. 数据挖掘的基本思想:
实事求是
7. 知识发现(KDD,广义上等价于数据挖掘)的步骤
- 数据清洗
- 数据集成
- 数据选择
- 数据变换
- 数据挖掘
- 模式评估
- 知识标识
二、数据挖掘的功能与应用
1. 关联分析:从大规模数据中发现对象之间有意义的隐含关系与规律
2. 分类:在输入对象的属性与输出的类别信息之间学习一种映射关系,以确定对象属于哪
个预定义的目标类
3. 聚类:根据对象属性的相似性将它们划分到若干个簇(类)中,划分的原则是簇内相似
性最大,簇间相似性最小
4. 异常检测:发现与大部分其他对象不同的对象,异常对象也被称作离群点
=> 分辨数据挖掘任务属于数据挖掘领域的哪一种问题
例:
有一份关于交易数据的数据集,数据集包含了以下信息:
交易日期 | 用户ID | 产品ID | 产品类型 | 交易金额 | 商店位置 |
... | ... | ... | ... | ... | ... |
1)找出忠实客户和非忠实客户;
2)根据交易金额将客户划分为不同消费群体;
3)提供商品的组合打折促销的策略;
请分别解释这三个问题是数据挖掘领域的哪一种问题。
解答:
1)分类问题,二分类,输入和类别是一种映射。需要对满足要求(可以是自己设定的条件,如交易金额大于某值或交易日期间隔小于某值)的部分用户标记为1,表示忠实用户,其余标记为0表示非忠实用户,作为标记进行预测。使用一些分类模型如逻辑回归、决策树、SVM等,交易日期、产品类型、交易金额、交易商店位置作为特征。
2)聚类问题,通过交易金额将用户划分到不同类,使得类内相似性最大,类间相似性最小。
3)关联分析,从数据与对象间找到隐含关系和规律。可以找出哪些商品会频繁地被一起购买,据此制定组合促销打折策略。