【数据挖掘与机器学习】一、绪论


前言

数据挖掘是一门非常重要的学科,从今天开始,博主会在本专栏更新相关内容,包括但不限于:python基本语法及各类包的使用、认识数据、数据预处理、数据挖掘主要任务、神经网络与深度学习等。适合初学者查看。😊

学习该门课程需要用到anaconda、jupyter notebook、matlab等工具,可以提前准备好,后续有时间的话会更新安装教程~


一、数据挖掘(Data mining)是什么?

随着互联网时代的快速发展,人们获取和存储数据变得越来越容易,数据呈爆炸式增长。面对海量数据,人们迫切希望对其进行分析和挖掘,发现并提取隐含在数据中的有价值信息。为解决这一问题,数据挖掘技术飞速发展,并应用到互联网、电商、金融、管理、生产和决策等多个领域。

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术。比如在购物软件中,平台会收集我们的消费记录和浏览记录等数据,通过分析这些数据,得出我们购买商品的规律,从而可以为我们提供个性化定制的推荐内容。


二、数据分析与数据挖掘

数据分析有广义与狭义之分,下图可以较为清楚的展现他们之间的关系。
广义数据分析内容


三、数据挖掘的主要任务

数据挖掘有关联分析、分类、回归、聚类、离群点检测等主要任务,下面将举例说明上述五种任务。

1.关联分析

关联分析的目的是找出数据库中隐藏的关联网
它最早是为了发现超市销售数据库中不同商品之间的关联关系。

听不太懂没关系,下面举例来解释。
美国某一超市经统计获得的表如下所示。

由上图可知,买Diaper(尿布)的大多数都会再买Beer(啤酒)。分析可得,多数年轻父亲去超市买婴儿尿布同时要买一些啤酒,发现了此二者的关联关系后,超市调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。

2.分类

分类用于预测离散的目标变量,建立一个从输入数据到分类标签的映射。

同样举例说明。

以欺诈检测为例,分类可以用于识别异常交易或欺诈行为。首先,通过收集历史交易数据,训练分类模型,识别正常交易欺诈交易的模式和特征。然后,利用训练好的模型对新的交易数据进行预测,判断其是否属于欺诈行为。通过对模型的持续优化和更新,可以提高欺诈检测的准确率和实时性,减少损失。

3.回归

回归是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。

回归与分类都是根据已知的数据构建出一个数据模型,然后应用这个模型对位置数据的所属分类进行预测。

二者的区别是,分类主要用于预测离散型变量,而回归主要用于预测连续性变量。

接下来举个例子,让你更好的了解回归。

在电子商务方面,回归分析可以根据用户的购买历史、浏览行为、搜索记录等数据,预测用户可能感兴趣的商品,从而提供个性化的购物体验,增加用户粘性和购买可能性。

4.聚类

聚类是一个将数据对象集划分为多个组或的过程。是簇内的数据对象具有很高的相似性,但不同簇间的对象具有很高的相异性

在文档分类上,聚类分析可以将文档根据其内容中的关键字进行分类,例如新闻文章、学术论文等,帮助信息检索系统更有效的组织和检索文档。

5.离群点检测

离群点是指显著偏离一般水平的观测对象。离群点检测是找出不同于预期对象行为的过程。

在网络入侵检测上,离群点检测通过收集网络中的各种数据,使用算法学习正常网络行为模式,应用学习到的模式来找出与正常行为不符的数据点,从而识别网络入侵。


四、补充

数据挖掘的数据源主要有数据库数据 、数据仓库、事务数据库……

数据挖掘存在的主要问题

  1. 数据类型多样化
  2. 噪声数据:如录音时会噪声,导致数据缺失。
  3. 高维度数据:传统算法在数据量小、数据维度低的情况下有较好的表现,但是在高维度须采取其他策略解决。
  4. 数据挖掘的可视化:数据挖掘通常会得到隐藏在数据中的规律或模式,但他们不易理解和解释,所以要对分析挖掘的规律进行可视化。

总结

以上就是第一章的内容,大致介绍了数据挖掘的基本内容。其中Jupyter Notebook比较容易上手,所以没有涉及。本专栏会持续更新,请大家多多关注吧!

  • 13
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值