数据分析基础篇16讲之02学习数据挖掘的最佳路径是什么?

02 学习数据挖掘的最佳路径是什么?

数据挖掘的基本流程分为哪六个步骤?

1. 商业理解:我们要知道数据挖掘不是我们的目的,我们的目的是更好地理解业务,帮助业务,所以首先应从商业角度去理解项目需求,从而再利用数据挖掘对我们目标进行定义。

2. 数据理解:利用部分数据集,对数据进行探索,包括数据的描述、数据的质量等,从而对数据有一个初步认识。

3. 数据准备:收集数据、清洗数据、数据集成等操作。完成数据挖掘前的准备工作

4. 模型建立:选择和利用各种数据挖掘算法模型,以便能够得到更好的分类结果。

5. 模型评估:对得出的模型进行评价,并检查构建模型的各个步骤,确认目标是否达到了预定的商业目标。

6. 上线发布:转为用户可使用的方式,并收集用户的动作行为,获取数据,呈现方式可以是报告或者实现一个较复杂、可重复的数据挖掘过程。

数据挖掘中的十大算法是哪些?

按照目的不同可分为四类,分别是:

分类算法:C4.5、朴素贝叶斯(Naive Bayes)、SVM、KNN、Adaboost、CART

聚类算法:K-Means、EM

关联分析:Apriori

连接分析:PageRank

  1. C4.5:该算法是得票最高的算法,而且是决策树的算法,创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也能对不完整的数据进行处理。
  2. 朴素贝叶斯(Naive Bayes):它是基于概率论的原理。思想过程是:对于给出的未知物体进行分类,需要求解出在这个未知物体出现的条件下各个类别出现的概率,哪个类别最大,这个未知物体就属于哪一个类别。
  3. SVM:中文支持向量机。它是在训练中建立了一个超平面的分类模型。
  4. KNN:也叫K最近邻算法。所谓K近邻,指的就是每个样本都可以用它最接近的K个邻居来代表。如果有一个样本。它的K个最接近的邻居都属于A类,那么这个样本就属于A类。
  5. Adaboost:该算法在训练中建立了一个联合分类模型。它是一个构建分类器的提升算法。它可让多个分类器组成一个强分类器,所以该算法也是常用分类算法之一。
  6. CART:CART代表分类和回归树。它构建了两棵树,一颗是分类树,一颗是回归树。和C4.5一样,也是一个决策树学习方法。
  7. Apriori:它是一种挖掘关联规则(association rules)的算法,通过挖掘频繁项集(frequent item sets)来揭示物品之间的关联关系,被广泛用于商业挖掘和网络安全等领域中。频繁项是指经常出现在一起的物品的集合,关联规则则暗示着两种物品之间可能存在着很强的关系。
  8. K-Means:是一个聚类算法。思想过程:假设有K个类别,每个类别中都有一个“中心点”,即核心点。当有一个新的点需要归类时,只需要计算出这个点与K个中心点之间的距离,并将这个点划分到距离最短的哪一个类中。
  9. EM:又名最大期望算法,是一种求解参数的最大似然估计的方法。思想过程:假设我们要评估两个未知参数A和B,当获知A的信息后即可得到B的信息,同样得到B的信息也可得到A的信息。首先考虑赋予A某个初值,以此得到B的值,然后从B估值出发,重新计算A的取值,如此反复直到收敛为止。该算法常用于聚类和机器学习领域中。
  10. PageRank:起源于论文影响力的公式,意思是如果一篇论文被引入的次数越多,这篇论文的影响力也就越强。后由Google应用到网页权重计算中,当一个页面被链入的频率越高,说明该页面被引入的次数越多。基于该原理,便可得知网站的权重划分。

数据挖掘中需要知道哪些数学知识呢?

  1. 概率论与数理统计:很多算法的本质都与概率论有关,所以说概率论与数理统计是数据挖掘的重要数学基础。如条件概率、独立性概念、随机变量和多维随机变量等概念。
  2. 线性代数:向量和矩阵被广泛应用于数据挖掘中,比如将对象抽象为矩阵表示。用特征向量来近似代表物体的特征,这个是大数据降维的基本思路。
  3. 图论:图论对于网络结构的分析非常有效,同时也在关系挖掘和图像分割中有重要的作用。
  4. 最优化方法:相当于机器学习中自我学习的过程,当机器知道了目标,训练后与结果存在偏差便需要迭代调整,最优化就是这个调整的过程。一般来说,学习和迭代的过程是漫长、随机的。最优化方法的提出就是用更短的时间得到收敛、得到更好的效果。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值