数据挖掘的基本流程

一、数据挖掘的过程可以分成以下 6 个步骤。
1. 商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们
要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
2. 数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证
等。这有助于你对收集的数据有个初步的认知。
3. 数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准
备工作。
4. 模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
5. 模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的
商业目标。
6. 上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识
需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较
复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的
监控和维护就会变得重要。

二、数据挖掘的十大算法
为了进行数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际
权威的学术组织 ICDM (the IEEE International Conference on Data Mining)评选出
了十大经典的算法。

l 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
l 聚类算法:K-Means,EM
l 关联分析:Apriori
l 连接分析:PageRank

 

三、数据挖掘的数学原理

1. 概率论与数理统计

2. 线性代数

3. 图论

4. 最优化方法

  • 3
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值