数据挖掘算法(Analysis Services – 数据挖掘)

“数据挖掘算法”是创建数据挖掘模型的机制。为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。算法使用此分析的结果来定义挖掘模型的参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

算法创建的挖掘模型可以采用多种形式,这包括: • 说明在交易中如何将产品分组到一起的一组规则。 • 预测特定用户是否会购买某个产品的决策树。 • 预测销量的数学模型。

说明数据集中的事例如何相关的一组分类。

MicrosoftSQL ServerAnalysis Services 提供了几个供您在数据挖掘解决方案中使用的算法。这些算法是所有可用于数据挖掘的算法的子集。您还可以使用符合 OLE DB for Data Mining 规范的第三方算法。有关第三方算法的详细信息,请参阅插件算法。  数据挖掘算法的类型


Analysis Services 包括了以下算法类型: • 分类算法基于数据集中的其他属性预测一个或多个离散变量。分类算法的一个示例是 Microsoft 决策树算法。

• 回归算法基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。回归算法的一个示例是 Microsoft 时序算法。

• 分割算法将数据划分为组或分类,这些组或分类的项具有相似属性。分割算法的一个示例是 Microsoft 聚类分析算法。

• 关联算法查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。关联算法的一个示例是 Microsoft 关联算法。

顺序分析算法汇总数据中的常见顺序或事件,如 Web 路径流。顺序分析算法的一个示例是 Microsoft 顺序分析和聚类分析算法。  应用算法


为特定的业务任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。







您也不必单独使用算法。在一个数据挖掘解决方案中,可以使用一些算法来研究数据,然后使用其他算法,基于这些数据预测特定结果。例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮分析。

挖掘模型可以预测值、生成数据摘要并查找隐含的相关性。为帮助您选择用于数据挖掘解决方案的算法,下表给出了可为特定的任务使用哪些算法的建议。

任务

可使用的 Microsoft 算法

预测离散属性。

例如,预测目标邮递活动的收件人是否会购买某个产品。

Microsoft 决策树算法

Microsoft Naive Bayes 算法 Microsoft 聚类分析算法

Microsoft 神经网络算法(Analysis Services – 数据挖掘)

预测连续属性。

例如,预测下一年的销售额。 Microsoft 决策树算法 Microsoft 时序算法

预测顺序。

例如,执行公司网站的点击流分析。 Microsoft 顺序分析和聚类分析算法

查找交易中常见项的组。

例如,使用市场篮分析来建议客户购买其他产品。 Microsoft 关联算法 Microsoft 决策树算法 查找相似项的组。

例如,将人口统计数据分组以便更好地理解属性之间的关系。 Microsoft 聚类分析算法

Microsoft 顺序分析和聚类分析算法

因为各个模型返回不同类型的结果,所以 Analysis Services 为每个算法提供单独的查看器。在 Analysis Services 中浏览挖掘模型时,数据挖掘设计器为该模型选用相应的模型查看器,该模型显示在数据挖掘设计器的“挖掘模型查看器”选项卡上。有关详细信息,请参阅查看数据挖掘模型。  算法详细信息


下表提供了适用于每种算法的信息类型的链接:







• 基本算法说明提供了对算法用途和工作原理的基本说明,以及该算法非常有用的业务方案。 • 技术参考 列出了可在模型中设置以便控制算法行为并自定义结果的参数。提供有关算法实现、性能提示和数据要求的其他技术详细信息。

• 查询模型 给出了可用于每个模型类型的查询的示例。可以查询模型以了解该模型中的模式的更多信息,或根据这些模式做出预测。

挖掘模型内容 说明了如何在所有模型类型的通用结构中存储信息,并介绍了如何解释这些信息。生成模型后,可以使用 BI Development Studio 中提供的查看器浏览该模型,或者可以编写查询以使用 DMX 直接从该模型内容返回信息。