Python数据分析与挖掘实战（一）——数据挖掘基础

最新推荐文章于 2024-04-22 14:19:56 发布

please tell me

最新推荐文章于 2024-04-22 14:19:56 发布

阅读量967

点赞数 1

分类专栏： Python数据分析与挖掘实战文章标签：数据挖掘

本文链接：https://blog.csdn.net/WXY19990803/article/details/106008030

版权

2 篇文章 0 订阅

订阅专栏

从大量数据（包括文本）中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势，并用这些知识和规则建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程，就是数据挖掘；它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程，是统计学、数据库技术和人工智能技术的综合。

（1）定义挖掘目标

针对具体的数据挖掘应用需求，首先要明确本次的挖掘目标是什么？系统完成后能达到什么样的结果？要想充分发挥数据挖掘的价值，必须对目标有一个清晰明确的定义，即决定到底想干什么。

（2）数据取样

在明确了需要进行数据挖掘的目标后，接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准，一是相关性，二是可靠性，三是有效性，而不是动用全部企业，且取样的数据一定要质量过关。常见的数据抽样方式如下：

随机抽样	在采用随机抽样方式时，数据集中的每一组观测值都有相同的被抽样的概率
等距抽样	如按5%的比例对一个有100组观测值的数据集进行等距抽样，则取第20、40、60、80和第100这5组观测值
分层抽样	在这种抽样操作时，首先将样本总体分为若干个层次（子集）。在每个层次中的观测值都具有相同的被选用的概率，但对不同的层次可设定不同的概率。这样的抽样结果更具代表性，进而使模型具有更好的拟合精度
从起始顺序抽样	这样的抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比，或者直接给定选取观测值的组数
分类抽样	在前述几种的抽样方式中，并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集。分类抽样的选取方式就是前述的几种方式，只是抽样以类为单位

（3）数据探索

当拿到一个数据样本后，它是否达到原来设想的要求；样本中有没有什么明显的规律和趋势；它们可区分成怎样一些类别…，这都是要探索的内容。
对所获取的样本数据进行探索、审核和必要的加工处理，是保证最终的挖掘模型的质量所必需的。可以说，挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量，从而为保证模型质量打下基础。

（4）数据预处理

（5）挖掘建模

（6）模型评价

数据挖掘是一个反复探索的过程，只有将数据挖掘工具提供的技术和实验经验与企业的业务逻辑和需求紧密结合，并在实施过程中不断的磨合，才能取得好的效果。下面介绍几种常用的数据挖掘建模工具。
SAS Enterprise Miner
IBM SPSS Modeler
SQL Server：在SQL Server 2008中提供了决策树算法、聚类分析算法、Naive Bayes 算法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。
Python
WEKA
KNIME
RapidMiner
TipDM

关注