【数据挖掘与机器学习】一、绪论

sasa水

于 2024-08-30 14:25:07 发布

阅读量458

点赞数 13

分类专栏：数据挖掘课堂笔记文章标签：数据挖掘机器学习人工智能

本文链接：https://blog.csdn.net/m0_73728497/article/details/141713069

版权

数据挖掘课堂笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

【数据挖掘与机器学习笔记】一、绪论

前言
一、数据挖掘（Data mining）是什么？
二、数据分析与数据挖掘
三、数据挖掘的主要任务
1.关联分析
2.分类
3.回归
4.聚类
5.离群点检测

四、补充
总结

前言

数据挖掘是一门非常重要的学科，从今天开始，博主会在本专栏更新相关内容，包括但不限于：python基本语法及各类包的使用、认识数据、数据预处理、数据挖掘主要任务、神经网络与深度学习等。适合初学者查看。😊

学习该门课程需要用到anaconda、jupyter notebook、matlab等工具，可以提前准备好，后续有时间的话会更新安装教程~

一、数据挖掘（Data mining）是什么？

随着互联网时代的快速发展，人们获取和存储数据变得越来越容易，数据呈爆炸式增长。面对海量数据，人们迫切希望对其进行分析和挖掘，发现并提取隐含在数据中的有价值信息。为解决这一问题，数据挖掘技术飞速发展，并应用到互联网、电商、金融、管理、生产和决策等多个领域。

数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术。比如在购物软件中，平台会收集我们的消费记录和浏览记录等数据，通过分析这些数据，得出我们购买商品的规律，从而可以为我们提供个性化定制的推荐内容。

二、数据分析与数据挖掘

数据分析有广义与狭义之分，下图可以较为清楚的展现他们之间的关系。
广义数据分析内容

三、数据挖掘的主要任务

数据挖掘有关联分析、分类、回归、聚类、离群点检测等主要任务，下面将举例说明上述五种任务。

1.关联分析

关联分析的目的是找出数据库中隐藏的关联网。
它最早是为了发现超市销售数据库中不同商品之间的关联关系。

听不太懂没关系，下面举例来解释。
美国某一超市经统计获得的表如下所示。

由上图可知，买Diaper（尿布）的大多数都会再买Beer（啤酒）。分析可得，多数年轻父亲去超市买婴儿尿布同时要买一些啤酒，发现了此二者的关联关系后，超市调整了货架的摆放，把尿布和啤酒放在一起，明显增加了销售额。

2.分类

分类用于预测离散的目标变量，建立一个从输入数据到分类标签的映射。

同样举例说明。

以欺诈检测为例，分类可以用于识别异常交易或欺诈行为。首先，通过收集历史交易数据，训练分类模型，识别正常交易和欺诈交易的模式和特征。然后，利用训练好的模型对新的交易数据进行预测，判断其是否属于欺诈行为。通过对模型的持续优化和更新，可以提高欺诈检测的准确率和实时性，减少损失。

3.回归

回归是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。

回归与分类都是根据已知的数据构建出一个数据模型，然后应用这个模型对位置数据的所属分类进行预测。

二者的区别是，分类主要用于预测离散型变量，而回归主要用于预测连续性变量。

接下来举个例子，让你更好的了解回归。

在电子商务方面，回归分析可以根据用户的购买历史、浏览行为、搜索记录等数据，预测用户可能感兴趣的商品，从而提供个性化的购物体验，增加用户粘性和购买可能性。

4.聚类

聚类是一个将数据对象集划分为多个组或簇的过程。是簇内的数据对象具有很高的相似性，但不同簇间的对象具有很高的相异性

在文档分类上，聚类分析可以将文档根据其内容中的关键字进行分类，例如新闻文章、学术论文等，帮助信息检索系统更有效的组织和检索文档。

5.离群点检测

离群点是指显著偏离一般水平的观测对象。离群点检测是找出不同于预期对象行为的过程。

在网络入侵检测上，离群点检测通过收集网络中的各种数据，使用算法学习正常网络行为模式，应用学习到的模式来找出与正常行为不符的数据点，从而识别网络入侵。

四、补充

数据挖掘的数据源主要有数据库数据、数据仓库、事务数据库……

数据挖掘存在的主要问题

数据类型多样化
噪声数据：如录音时会噪声，导致数据缺失。
高维度数据：传统算法在数据量小、数据维度低的情况下有较好的表现，但是在高维度须采取其他策略解决。
数据挖掘的可视化：数据挖掘通常会得到隐藏在数据中的规律或模式，但他们不易理解和解释，所以要对分析挖掘的规律进行可视化。

总结

以上就是第一章的内容，大致介绍了数据挖掘的基本内容。其中Jupyter Notebook比较容易上手，所以没有涉及。本专栏会持续更新，请大家多多关注吧！

sasa水

关注

13
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
【数据挖掘与机器学习】一、绪论

数据挖掘与深度学习课程笔记，内容包括：数据挖掘是什么，数据挖掘的主要任务及应用等等。
复制链接

扫一扫

专栏目录