数据挖掘学习笔记1 数据挖掘概述

FeSCN6

于 2023-12-21 21:12:53 发布

阅读量391

点赞数 6

文章标签：数据挖掘学习笔记

本文链接：https://blog.csdn.net/m0_62042674/article/details/135140247

版权

一、数据挖掘的定义

1. 数据的定义：

数据通常被定义为事实、观察或记录的集合，包括数字、文本、图像、声音或任
何可以被记录和存储的信息。

2. 数据挖掘的定义：

从大量数据中提取出有趣的（非平凡的、隐含的、以前未知的和潜在
有用的）模式或知识。

3. 知识的定义：

在数据挖掘中，知识通常被定义为从数据中抽取、推断或发现的有意义、有用的
信息或模式。

4. 评价知识的有意义：

典型性：本质的、普遍的、有代表性的知识
新颖性：还未被发现的有价值的知识
时效性：在当下或未来某个时间范围内可以辅助决策的知识

5. 评价知识的有趣性

准确性：能反映数据的真实情况
实用性：简洁可用、易于理解

6. 数据挖掘的基本思想：

实事求是

7. 知识发现（KDD，广义上等价于数据挖掘）的步骤

数据清洗
数据集成
数据选择
数据变换
数据挖掘
模式评估
知识标识

二、数据挖掘的功能与应用

1. 关联分析：从大规模数据中发现对象之间有意义的隐含关系与规律

2. 分类：在输入对象的属性与输出的类别信息之间学习一种映射关系，以确定对象属于哪
个预定义的目标类

3. 聚类：根据对象属性的相似性将它们划分到若干个簇（类）中，划分的原则是簇内相似
性最大，簇间相似性最小

4. 异常检测：发现与大部分其他对象不同的对象，异常对象也被称作离群点

=> 分辨数据挖掘任务属于数据挖掘领域的哪一种问题

例：

有一份关于交易数据的数据集，数据集包含了以下信息：

交易日期	用户ID	产品ID	产品类型	交易金额	商店位置
...	...	...	...	...	...

1）找出忠实客户和非忠实客户；

2）根据交易金额将客户划分为不同消费群体；

3）提供商品的组合打折促销的策略；

请分别解释这三个问题是数据挖掘领域的哪一种问题。

解答：

1）分类问题，二分类，输入和类别是一种映射。需要对满足要求（可以是自己设定的条件，如交易金额大于某值或交易日期间隔小于某值）的部分用户标记为1，表示忠实用户，其余标记为0表示非忠实用户，作为标记进行预测。使用一些分类模型如逻辑回归、决策树、SVM等，交易日期、产品类型、交易金额、交易商店位置作为特征。

2）聚类问题，通过交易金额将用户划分到不同类，使得类内相似性最大，类间相似性最小。

3）关联分析，从数据与对象间找到隐含关系和规律。可以找出哪些商品会频繁地被一起购买，据此制定组合促销打折策略。

FeSCN6

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘学习笔记1 数据挖掘概述

1）分类问题，二分类，输入和类别是一种映射。需要对满足要求（可以是自己设定的条件，如交易金额大于某值或交易日期间隔小于某值）的部分用户标记为1，表示忠实用户，其余标记为0表示非忠实用户，作为标记进行预测。2. 分类：在输入对象的属性与输出的类别信息之间学习一种映射关系，以确定对象属于哪。3. 聚类：根据对象属性的相似性将它们划分到若干个簇（类）中，划分的原则是簇内相似。在数据挖掘中，知识通常被定义为从数据中抽取、推断或发现的有意义、有用的。从大量数据中提取出有趣的（非平凡的、隐含的、以前未知的和潜在。
复制链接

扫一扫