数据挖掘 学习笔记1 数据挖掘概述

一、数据挖掘的定义

1. 数据的定义:

数据通常被定义为事实、观察或记录的集合,包括数字、文本、图像、声音或任
何可以被记录和存储的信息。

2. 数据挖掘的定义:

从大量数据中提取出有趣的(非平凡的、隐含的、以前未知的和潜在
有用的)模式或知识。

3. 知识的定义:

在数据挖掘中,知识通常被定义为从数据中抽取、推断或发现的有意义、有用的
信息或模式。

4. 评价知识的有意义:

  • 典型性:本质的、普遍的、有代表性的知识
  • 新颖性:还未被发现的有价值的知识
  • 时效性:在当下或未来某个时间范围内可以辅助决策的知识

 5. 评价知识的有趣性

  • 准确性:能反映数据的真实情况
  • 实用性:简洁可用、易于理解

6. 数据挖掘的基本思想:

实事求是 

7. 知识发现(KDD,广义上等价于数据挖掘)的步骤

  • 数据清洗
  • 数据集成
  • 数据选择
  • 数据变换
  • 数据挖掘
  • 模式评估
  • 知识标识

 二、数据挖掘的功能与应用

1. 关联分析:从大规模数据中发现对象之间有意义的隐含关系与规律

2. 分类:在输入对象的属性与输出的类别信息之间学习一种映射关系,以确定对象属于哪
个预定义的目标类

3. 聚类:根据对象属性的相似性将它们划分到若干个簇(类)中,划分的原则是簇内相似
性最大,簇间相似性最小

4. 异常检测:发现与大部分其他对象不同的对象,异常对象也被称作离群点

=> 分辨数据挖掘任务属于数据挖掘领域的哪一种问题

例:

有一份关于交易数据的数据集,数据集包含了以下信息:

交易日期用户ID产品ID产品类型交易金额商店位置
..................

1)找出忠实客户和非忠实客户;

2)根据交易金额将客户划分为不同消费群体;

3)提供商品的组合打折促销的策略;

请分别解释这三个问题是数据挖掘领域的哪一种问题。

解答: 

1)分类问题,二分类,输入和类别是一种映射。需要对满足要求(可以是自己设定的条件,如交易金额大于某值或交易日期间隔小于某值)的部分用户标记为1,表示忠实用户,其余标记为0表示非忠实用户,作为标记进行预测。使用一些分类模型如逻辑回归、决策树、SVM等,交易日期、产品类型、交易金额、交易商店位置作为特征。

2)聚类问题,通过交易金额将用户划分到不同类,使得类内相似性最大,类间相似性最小。

3)关联分析,从数据与对象间找到隐含关系和规律。可以找出哪些商品会频繁地被一起购买,据此制定组合促销打折策略。

 

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值