【数据挖掘】1、综述：背景、数据的特征、数据挖掘的六大应用方向、有趣的案例

呆呆的猫

已于 2023-02-26 20:03:42 修改

阅读量1k

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘人工智能 python

于 2023-02-26 17:12:40 首次发布

本文链接：https://blog.csdn.net/jiaoyangwm/article/details/129219065

版权

数据挖掘专栏收录该内容

4 篇文章 3 订阅

订阅专栏

一、背景

1.1 学习资料

推荐书籍如下：

在这里插入图片描述

Google Scholar：搜学术期刊

开源数据集：UCI Machine Learing Repository

开源 GUI 工具，方便快速上手：WEKA

KDD nuggets: 数据挖掘网站

在这里插入图片描述

1.2 数据的特征

数据是最底层的概念，其中有价值的才能称作信息。

大数据有三个特征：

Volumn：容量够大，TB 变为 ZB 等。
Variety：多样：从结构化的二维 excel 表格，到非结构化的文字、声音、图像、视频等待加工的数据。
Velocity：速度：从静态数据集，到动态高 QPS 的流式数据处理，对算法有很高要求。

1.3 数据挖掘的应用案例

大数据的应用场景：

安防预测：预测疑犯行为，提前防火，而不是事后疲于救火。
对症下药：
APP 地理位置可视化：
商店购物：区域热力图、人员轨迹、停留时间 =》精准营销（推荐商品）
情感分析：文字识别，分析情感
体育数据分析：2000 年左右国外真实案例，小牌球队，利用数据挖掘分析各球员的特点，组织球队布阵，取得商业成功，也将此真实故事拍成了电影《点球成金》。
美女挖掘：通过非诚勿扰各女嘉宾的信息（包括身高、面部关键点度量、家庭背景、对心动男生的期待等），挖掘大众心中的心动女生有何特征。

1.4 获取数据集

越来越多公开数据集出现：法律公开（允许自由使用），技术容易获取（易结构化，易清洗）。下面是一些公开数据集网址，可以多多使用。

在这里插入图片描述

政府其实有极多数据，其也会开放很多数据，如下，方便大家做多维数据融合挖掘：

在这里插入图片描述

1.5 数据挖掘的定义

不同于以往的数据处理，而是针对大量数据，发掘出有趣、有用、隐含的信息。

在这里插入图片描述

数据清洗后变为信息，信息挖掘得到知识，知识通过领域模型得到有用的决策。

在这里插入图片描述

ETL 如下：

在这里插入图片描述

工业界数据挖掘和可视化软件有很多：

在这里插入图片描述

二、分类

分类任务是通过给定一些训练集，训练后得到分类模型模型，下面几种模型是常用的分类模型：

决策树
K 近临
神经网络
SVM

在这里插入图片描述

分类的本质其实是，得到分界面：

在这里插入图片描述

我们需要的是黑色的线（因为是平滑的），因为绿色的线是过拟合（即死记硬背的模型，并未东西出数据规律）

在这里插入图片描述

数据的训练集和预测集需要不同，才能体现模型的有效性。

在这里插入图片描述

混淆矩阵，是各种模型指标的定义根基：

TP：即数据本身的ActualValue即为 Positive，且其预测得到的 PredictedValue 也 Truely 预测为 Positive，即预测对了。
TN：即数据本身的ActualValue即为 Negative，且其预测得到的 PredictedValue 也 Truely 预测为 Negative，即预测对了。
FP：即数据本身的ActualValue即为 Negative，且其预测得到的 PredictedValue 却 Falsely 预测为 Positive，即预测错了。
FN：即数据本身的ActualValue即为 Positive，且其预测得到的 PredictedValue 也 Falsely 预测为 Negative，即预测错了。

基于这些概念：又衍生了最常用的两个呈反比的指标：例如预测集共 500 个，其中 200 个为 A 类，300 个为 B 类。模型预测出其中 50 个为 A 类（其中预测对的是 30 个）。

Precision准确率：模型真正预测对的数量 / 「模型预测」「出的」数量。即 30 / 50。
Recall查全率：模型真正预测对的数量 / 「总预测集」的「对的」数量。即 30 / 200。

P - R 曲线如下：

Precision 和 Recall 二者的「PR曲线呈反比关系」（纵轴为 Precision，横轴为 Recall，每个点位不同的业务阈值。因为二者呈反比关系，故一般选「适中」的业务阈值来使得 P 和 R 可以「兼顾」）：
- 因为模型输出都是介于 0 到 1 的得分，如 0.7，标识有 70%的概率是 A类。
- 而应用层可以定义阈值，若高于阈值则视为「业务视为：输出 A 类」，反之若低于阈值则视为「业务视为：输出非 A 类」。
  - 如果业务把阈值定的很高（例如 0.999）那么输出结果很少但很准确，即「Recall低（漏了很多结果）」而「Precision高（判断很准确，很严格）」。
  - 如果业务把阈值定的很低（例如 0.001）那么输出结果很多但很多误报，即「Recall高（一个结果都没漏）」而「Precision低（判断很不准，都在误报）」。