数据挖掘概述

 

数据挖掘是通过以下多种技术来识别隐含在数据之中的有价值的信息金块。通过数据挖掘提取的信息可应用于很多领域,如决策支持、预测、预报和估计。数据通常数量很多,但价值较低,并且以其原始形式显示时并没有什么直接用处。有价值的是隐藏在数据之中的信息。

在数据挖掘中,将您的(或专家的)数据知识与一些高级的、主动的分析技术(这里是计算机识别数据潜在关系和特性)相结合,才能获得成功。数据挖掘过程将利用历史数据生成模型,这些模型将在日后用于预测、模式识别以及更多用途。构建这些模型的技术称为机器学习或建模。

建模技术

Clementine 包含了许多机器学习和建模技术,这些技术可以根据它们要解决的问题类型大致进行分组。

• 预测建模方法包括决策树、神经网络和统计模型。

• 聚类模型主要用来确定相似记录的组并根据它们所属的组来为记录添加标签。聚类方法包括 Kohonen、K-means 和两步法。

• 关联规则会将某个特定的结论(如某个特定产品的购买)与一系列条件(若干其他产品的购买)相关联。

• 筛选模型可用于对数据进行筛选以找出最可能与建模相关的字段和记录,还可用于识别与已知模式不匹配的离群值。可用方法包括特征选择和异常检测。

数据操作和发现

Clementine 还包括了很多可将您的专业知识应用于数据的工具:

• 数据操作。从现有数据项派生构建新的数据项,并将数据细分为有意义的子集。来自各种源的数据可以进行合并和过滤。

• 浏览和可视化。使用数据审核节点显示数据的各个方面(其中包括图形和统计量),以执行初始审核。高级可视化包括交互式图形,这些图形可包含在工程报告中进行导出。

• 统计量。确认数据中变量之间的可疑关系。SPSS 中的统计量也可在 Clementine 中使用。

• 假设检验。构建数据行为模式的模型,并验证这些模型。

通常情况下,您要使用这些工具来识别数据中的一些可能有价值的属性。然后这些属性可以提供给建模技术,用以尝试确定潜在的规则和关系。

典型应用

数据挖掘技术的典型应用包括下列内容:

直邮 。确定哪些人口统计信息的组具有最高的响应率 。使用此信息可使得将来邮件的响应度达到最高。

信用评分。使用个人的信用历史以确定其信用 决策。

人力资源。了解过去的招聘惯例,创建决策规则,以简化招聘过程。

医疗研究。根据医疗证据,创建决策规则,来提出合适的流程。

市场分析。确定哪些变量(如地理位置、价格和客户特征)与销售量相关。

质量控制。分析来自产品制造的数据,确定决定产品缺陷的变量。

政策研究。使用调查数据,通过应用决策规则来选择最重要的变量,来制定政策。

保健。可以将用户调查和临床数据相结合,发现有利于健康的变量。

术语

属性、字段和变量这些涉及单个数据项的术语通用于考察中的所有观测。与某个特定观测相关的属性值集合称为记录、示例或观测值。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值