第二讲学习数据挖掘的最佳路径_求最佳路径的模型及算法 csdn-CSDN博客

本文链接：https://blog.csdn.net/qq_43466427/article/details/85113921

在这里插入图片描述

1. 什么是数据挖掘

例子：在大海中寻找石油，开采人员对地质做勘探，分析地质构造，从而发现石油位置，然后用开采工具，进行深度挖掘，直至打到石油。例子：在大海中寻找石油，开采人员对地质做勘探，分析地质构造，从而发现石油位置，然后用开采工具，进行深度挖掘，直至打到石油。大海就是数据源，石油就是分析的结果。数据挖掘工作就是分析这些数据，从庞大的数据中找到规律，发现宝藏。

2. 数据挖掘知识清单

(1)基本流程

商业理解：从商业的角度理解项目需求。
数据理解：收集部分数据，对数据进行描述、质量验证等，对收集的数据有个初步认知。
数据准备：收集数据，进行数据清洗、数据集成等操作，完成数据挖掘前的准备工作。
模型建立：选择和应用各种数据挖掘模型，并进行优化。
模型评估：对模型进行评价，检查构建模型的每个步骤，确认模型是否实现预定的商业目标。
上线发布：模型的作用是在数据中找到知识，需要转化成用户可以使用的方式。可以是报告或是数据挖掘过程。

(2)十大算法

在数据挖掘模型中，ICDM（the IEEE International Conference on Data Mining）评选出了十大经典算法：
按照目的，分成四类：
分类算法：

C4.5
十大算法之首。是决策树的算法，在决策树构建过程中进行了剪枝，可以处理连续的属性，也能处理不完整的数据。
朴素贝叶斯（Naive Bayes）
基于概率论原理，对给定未知物体进行分类，需要求解在它出现的情况下，各个类别出现的概率，未知物体属于出现概率最大的类别。
SVM（Support Vector Machine）
支持向量机。在训练中建立了一个超平面的分类模型。
KNN（K-Nearest Neighbor）
K近邻算法。每个样本都可以用它最接近的K个邻居代表，如果K个邻居都属于分类A，则该样本也属于A。
AdaBoost
在训练中建立一个联合的分类模型，是构建分类器的提升算法，将多个弱分类器组成一个强分类器。
CART（Classification and Regression Trees）
分类树和回归树。是决策树算法。

聚类算法：

K-Means
最终将物体分成K类，每个类别里有一个中心点，如果将新点归类，就要计算新点与中心点的距离，离哪个近就是哪个类别。
EM
最大期望算法，求参数的最大似然估计的方法。开始状态A,B两个参数未知，知道A的信息就可以得到B的信息，反过来也成立。首先赋给A一初值，得到B的估值，再从B的估值出发，重新估计A的取值，持续过程直至收敛。该算法常用于聚类和机器学习领域。

关联分析：