第二讲 学习数据挖掘的最佳路径

在这里插入图片描述

1. 什么是数据挖掘

例子:在大海中寻找石油,开采人员对地质做勘探,分析地质构造,从而发现石油位置,然后用开采工具,进行深度挖掘,直至打到石油。 例子:在大海中寻找石油,开采人员对地质做勘探,分析地质构造,从而发现石油位置,然后用开采工具,进行深度挖掘,直至打到石油。 大海就是数据源,石油就是分析的结果。数据挖掘工作就是分析这些数据,从庞大的数据中找到规律,发现宝藏。

2. 数据挖掘知识清单

(1)基本流程

  • 商业理解:从商业的角度理解项目需求。
  • 数据理解:收集部分数据,对数据进行描述、质量验证等,对收集的数据有个初步认知。
  • 数据准备:收集数据,进行数据清洗、数据集成等操作,完成数据挖掘前的准备工作。
  • 模型建立:选择和应用各种数据挖掘模型,并进行优化。
  • 模型评估:对模型进行评价,检查构建模型的每个步骤,确认模型是否实现预定的商业目标。
  • 上线发布:模型的作用是在数据中找到知识,需要转化成用户可以使用的方式。可以是报告或是数据挖掘过程。

(2)十大算法

在数据挖掘模型中,ICDM(the IEEE International Conference on Data Mining)评选出了十大经典算法:
按照目的,分成四类:
分类算法

  • C4.5
    十大算法之首。是决策树的算法,在决策树构建过程中进行了剪枝,可以处理连续的属性,也能处理不完整的数据。
  • 朴素贝叶斯(Naive Bayes)
    基于概率论原理,对给定未知物体进行分类,需要求解在它出现的情况下,各个类别出现的概率,未知物体属于出现概率最大的类别。
  • SVM(Support Vector Machine)
    支持向量机。在训练中建立了一个超平面的分类模型。
  • KNN(K-Nearest Neighbor)
    K近邻算法。每个样本都可以用它最接近的K个邻居代表,如果K个邻居都属于分类A,则该样本也属于A。
  • AdaBoost
    在训练中建立一个联合的分类模型,是构建分类器的提升算法,将多个弱分类器组成一个强分类器。
  • CART(Classification and Regression Trees)
    分类树和回归树。是决策树算法。

聚类算法

  • K-Means
    最终 将物体分成K类,每个类别里有一个中心点,如果将新点归类,就要计算新点与中心点的距离,离哪个近就是哪个类别。
  • EM
    最大期望算法,求参数的最大似然估计的方法。开始状态A,B两个参数未知,知道A的信息就可以得到B的信息,反过来也成立。首先赋给A一初值,得到B的估值,再从B的估值出发,重新估计A的取值,持续过程直至收敛。该算法常用于聚类和机器学习领域。

关联分析

  • Apriori
    挖掘关联规则(association rules)的算法。通过挖掘频繁项集(frequent item sets)来揭示物品之间的关系,被广泛应用到商业挖掘网络安全领域。

连接分析

  • PageRank
    如果一篇论文被引次数越多,代表影响力越强。Google将其应用到了网页权重的计算中,可以得到网页的权重划分。

(3)数学原理

  • 概率论与数理统计
    数据挖掘重要数学基础
  • 线性代数
    向量和矩阵,基于矩阵的各种运算可以解决许多实际问题:PCA,SVD,MF,NMF等。
  • 图论
    对于网络分析非常有效,在关系挖掘和图像分割中有重要作用。
  • 最优化方法
    机器学习中自我学习的过程,当机器知道了目标,训练后如果与结果存在偏差就需要迭代调整,最优化就是调整的过程,用最短的时间得到收敛,取得更好的效果。

3. 总结与体会

在本节课中,了解了数据挖掘的流程,以及相关算法的大致含义和需要具备的数学知识。发现需要了解的知识有很多,需要今后一步一步学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值