数据挖掘器: 警告 — 及时采取行动

简介

每天,企业都要面对产品质量、法人责任、竞争环境的风云变幻、品牌衰退等问题的威胁。如果没有一个系统收集和分析能够指出潜在威胁的数据,那么企业就只能祈祷运气降临到自己头上了。

世界最大的轮胎制造商在 2000 年 8 月付出了惨重的代价才深深体会到了这一点。当时该公司在一款流行的运动休闲车的轮胎外胎面突然脱落造成的一连串事故后召回了 650 万个轮胎。根据美国高速公路交通安全局(National Highway Traffic Safety Administration,NHTSA)的统计,单在美国境内,由于轮胎引起的交通事故就可能达到 750 起,造成 62 人死亡。汽车制造商声称早在 1998 年就已经对这些轮胎的质量产生了怀疑。尽管早已指出了这个问题,但汽车和轮胎制造商未能意识到问题的严重性,直到很久之后,这个问题给这些公司及其顾客带来了可怕的后果。

涉及国家防御的政府机构也遇到了类似的问题。智能服务中的信息日益泛滥。整理所有信息并将它们放到一起以精确地指出紧急威胁并及时做出反映不再是件容易的事情了。幸好,数据挖掘技术可以帮助发现各种数据中隐藏的警告。

预警系统提供了系统地收集和分析数据以识别出现的威胁或问题的能力。为了让这些系统有用,只要数据中累积了足够多的证据支持该问题,就必须马上识别威胁。该系统不能遗漏太多真正的威胁,也不能预测太多永远不发生的威胁。好的预警系统有助于识别潜在的问题、分析它们的特征和起因,并量化它们的严重性。在某个特定月份中在某种条件下检测故障率的突然上升只是其任务的一部分;系统还应该能够估计这个故障率会否继续上升,并预测如果不予理睬其影响又如何。

这些系统有许多用途。跟踪新闻稿、专利公布和合并与收购活动可以帮助确认由于竞争对手、供应商、顾客或合作伙伴的策略变化而导致的潜在威胁。监控和分析新闻组和邮件列表中顾客张贴的内容和对呼叫中心的投诉可以帮助发现市场动态和品牌观念的趋势。汽车制造商经常扫描大型的保修索赔数据库,以检测零部件故障率的趋势,从而可以指出质量或安全问题。在与经济诈骗、洗钱、贪污、有组织犯罪和恐怖份子融资的斗争中,一些全球金融机构最近联合了力量来收集并利用公共信息,以更好地确认与客户交易相关的法律、规章和信誉风险。

管理已确认的重要问题涉及到一个组织的方方面面。因此,完善的预警系统通常包含了工作流管理和协作能力,以支持与打开、调查、关闭重要问题以及调度和跟踪操作(以便管理重要问题)相关的业务过程。官僚主义、过时的策略和组织的划分范围都可以给信息共享和集成式分析造成障碍。但是,这是数据挖掘的专题,我们假设这些非技术问题都可以解决,所以把精力完全放在技术问题上。

虽然每个领域都不同,但这些预警系统都有许多相同的元素。我们将详细说明这些元素。



数据收集

预警只是一种可能性,表示数据中隐含威胁的迹象。这些初期指标通常来自各种不同的来源。所收集的数据也许会来自现有的内部系统,该系统是为支持操作需要(如呼叫中心的保修索赔处理或顾客联系管理)而构建的。也可能来自外部数据库、新闻或专利服务器和 Web 的搜索结果。在确认所有相关来源之后,数据收集器会按常规计划或者甚至实时地搜索、选择、传送所有可能相关的数据,并供预警解决方案使用。在最近与汽车制造商一起进行的一项工作中,我们每天都从保修索赔系统、生产系统、呼叫中心、法律责任案例的资源库和 NHTSA 中收集数据。


数据仓库

警告指标通常被无关数据掩藏。对无关的故障和事件的观察也许永远也不能对预测警报趋势有所贡献。允许趋势发展需要集成来自所有可用来源的信息的能力。当任何信息可用时,数据仓库就将该信息合并到公共数据体系结构中,从而为预警解决方案提供了坚实的数据基础。不管信息来源如何,它都可以捕捉到涉及同一实体的所有信息。数据仓库还使数据在长时间内可被快速访问,从而使趋势和重要问题浮现出来。趋势的发展需要多长时间可能取决于产品的预期寿命(用忙闲度或服务时间来衡量)、保修期、法律责任期等。


信息抽取

在我们的实践中,我们发现一些最有价值的警告指标通常都包含在非结构化的数据中,尤其是文本。在汽车制造公司中,要处理取自六个来源(包括非结构化的文本字段)的数据,如关于故障的原因或症状的专家注释、对制造商的呼叫中心和 NHTSA 的客户投诉的副本以及诉讼案例的摘要。我们构建的解决方案每天会自动处理数以百计的记录,以寻找可以提高安全性或其它重要问题的指标。

进入预警解决方案的非结构化的数据使信息抽取成为必要。信息抽取是指将非结构化的数据转换成结构化的数据格式的过程,从而支持数据集成或数据分析。

信息抽取(只关注文本数据)的相关技术包括:

特性抽取。文本挖掘工具(如 IBM Intelligent Miner for Text)可以自动派生一组特性,这些特性会捕捉适合于正在被分析的文档集合的关键术语和概念。特性可以是多单词术语、人名、组织名和地名、缩写和关键的数字,如货币金额和日期(请参阅图 1)。算法将“信用透支(credit facility)”、“信用额度(credit line)”、“里昂信贷银行(Credit Lyonnais)”和“瑞士信贷银行(Credit Suisse)”看成是四种独立的概念。每个特性都有可能成为一段结构化数据。


图 1:Intelligent Minerinput 执行的数字抽取。
图 1

文档群集和分类。捕捉关键术语和概念的特性通常也描绘了文档内容的常规性质。根据特性,可以将文档分成一个或多个类(类别)。如果给定一组文档,群集技术就会构成一组组主题类似的文档。每个组都可以用该组中文档最突出的特性标记。当存在一组预先定义的类别和已经分配到这些类别的文档的示例时,文档分类技术就可以归纳出区别这些类别的模型。这些模型可以让您根据任何文档的特性,自动将其分类到一个或多个预先定义的类别。已分配的类表示结构化数据的有价值部分,不管该分配是由群集技术还是由分类技术执行的。

信息抽取的自然语言处理。信息抽取通常要求在语句级别对文本进行更详细的分析。通常,特定种类的实体、事件、操作和它们之间的关系是潜在威胁域中的重要部分。例如,在汽车的示例中,我们创建的解决方案必须在每个文本块中标识所引用的汽车特定的零部件、对这些零部件所做的故障或症状报告,以及任何严重事件的发生(如翻车或死亡事故)。在金融服务中,将人名或业务实体名与特定的犯罪行为的定罪和所记载的辩解相关联是很重要的。为完成这样的任务,我们使用 IBM Research 开发的自然语言处理技术,它嵌入到了 Talent 系统。Talent(它不是商用产品,而是 IBM 服务提供的一个元素)使用可伸缩自然语言处理技术来分析大文档集合的内容,从而抽取信息并生成反映这些文档的词法和概念内容的助诊文件。所抽取的信息用于查询改进、导航文档数据库中的重要概念和准备并提供文档摘要。

Talent 包括用于词法和形态分析、语音部分标记、语法和句法分析以及解析的组件。输入中的文档被当作单词流提供给 Talent。在输出中,Talent 通过在被称为解析树的多级别层次结构中捕捉单词及其用法的特征之间的关系,来显示文档的结构。图 2 显示了在处理包含语句“Side air bag didn't deploy when vehicle was involved in accident.”的文档之后生成的解析树的简化版本。请注意,树上描述的关系确定了“vehicle”是动词组“was involved”的被动语态主语,并且有一个谓语介词短语“in accident”。解析树还确定了侧气囊没有弹出,而且用“when”从句进一步限定了该语句。如果没有这种文本分析,那么句子中每个单词的角色就会不能识别。如果没有那些资料,您就不能确定,例如,是气囊还是汽车没有弹出。


图 2:显示语句中单词的角色及其关系的解析树示例。
图 2

准备解析树是信息抽取的第一步。下一步是检查所关心的模式的树。主题专家为信息抽取准备了特定于领域的业务规则。每个规则都包含了与解析树的各组成部分相匹配的模式,以及用于只要发现匹配就以结构化数据格式从树中抽取信息块的指令。

以下是一个业务规则的示例,它将抽取一个实例,在该实例中,某个汽车零部件(如气囊)显示了“no deployment”故障。该规则的模式将指定一个主动语态句子,其中:

1. 主语短语匹配汽车零部件。

2. 动词组包含了任何时态的动词“to deploy”,但却是以否定形式。

规则的信息抽取操作将指定“no deployment”作为故障代码,将主语短语中所匹配的汽车零部件的代码指定为故障零部件。在一个领域中有几百个信息抽取规则并不罕见。通常,每个规则都要对每个文档进行处理,因此拥有一个非常有效的规则处理引擎很重要。例如,在汽车的示例中,我们设计了一个可以一整夜处理接近 10 万个文档的规则引擎。

Talent 中的自然语言处理组件和规则处理引擎的体系结构都是与语言无关的,但所实现的许多分析函数都主要适用于英语。多语言领域需要特定于语言的分析组件或在信息抽取之前将文档翻译成英文的机器翻译技术。


查询、报告和 OLAP

准备好数据基础之后,即已经有了正确集成的来自所有相关来源的数据和从任何非结构化的数据中抽取的信息,就可能查找预警指标、监控趋势和深入地分析数据。

查询、报告和在线分析处理(OLAP)工具是任何预警系统的必备部件。可以编制标准报告来按常规调度表生成和发布报告。在汽车公司里,我们编制了许多报告以满足新的管理报告需求。这些工具还提供了对用于特别分析以及分析预警系统识别的潜在问题的数据的访问。所关心的一些问题是:重要问题后面的事件是什么?随着时间的流逝,它们的频率趋势是什么?这些事件在什么条件下会发生?随着时间的流逝,是否会出现模式?这些工具有助于证实、反驳和改进搜索这些和其它问题的答案时的假设。

我们发现由 IBM 东京研究实验室开发的 IBM 的 Text Analysis and Knowledge Mining(TAKMI)工具在这一领域中非常有用。在日本国内,TAKMI 是一个独立的 IBM 产品,而在美国,它是作为服务来提供的,TAKMI 不同于大多数查询、报告和 OLAP 工具,因为它直接处理非结构化的文本数据,并且包含了嵌入式信息抽取功能。虽然 TAKMI 主要针对某个特定领域,但是知识发现任务基本上独立于领域,而且如果有监督的话,几乎不需要专业知识。TAKMI 提供了确认文档中概念发生的趋势、模式和关系的功能。它还有助于用各种报告和图表以可视化形式概述结果。

 

异常检测

有效的预警系统应该在数据可用时主动分析数据。通常,预警信号首先作为数据中的异常出现:偏离所建立的标准和预期的行为。如果在搜索异常之前没有假设预期有什么行为,那么搜索异常是最复杂的。搜索应该尽可能公正并且是数据驱动的。可以从历史数据归纳出各种情况的预期行为的模型。这样的模型让分析员可以将实际观察到的行为与预期行为进行比较,并确定任何偏差是否可能很重要。

出于某些原因,异常检测是一项很困难的任务。首先,通常很难开发精确的预期行为模型。其次,通常可能发生异常的潜在情况的数量非常大;因此搜索空间通常也很大。考虑观察汽车引擎着火事故。通常都会从许多角度来描述每个事故,包括汽车的品牌和型号、里程表上的里程数和事故的地理位置。要确定着火事故发生率是否有异常涉及独立地分析多维数据立方体中所有聚合级别的所有单元。单元的每个聚合相当于一组不同的条件(在这组条件下,可能在着火率中出现异常):例如,某个特定品牌和型号的汽车或在某个特定地理位置发生的异常。

IBM DB2 OLAP Server 的一个新组件,有时也称作 OLAP Miner,解决了异常或偏差检测的难题。在传统 OLAP 系统中使用的标准假设驱动的研究中,分析员使用诸如钻取、上卷和选择等操作在巨大的单元搜索空间中无助地导航。OLAP Miner 建立了新的发现驱动的探索范例。该软件首先挖掘异常的数据,并总结在数据立方体的各个级别上找到的数据。然后它使用这些结果,在导航期间将分析员指引到所关心的数据立方体的区域(请参阅图 3)。


图 3:DB2 OLAP Server 的偏差检测组件的抓屏。
图 3 



数据可视化、警告和重要问题管理

预警数据仓库会经常用新数据进行更新。可以借助查询、报告和 OLAP 工具来访问这些数据。同时,发现驱动的数据挖掘操作会经常查找异常并帮助发现模式和异常的趋势。在任何时候都会有一组重要问题正在进行处理。其中一些刚被确认为潜在重要问题,而且其它的可能处于调查和管理的各个阶段。整个系统的事件状态通常以数据和过程的形式通过仪表板(dashboard)(可以定制以满足每个用户的需要)提供给分析员和管理层。

仪表板提供了一个新的数据访问和表示层,它可以:

  • 围绕业务活动(如打开一个用于调查的新的重要问题)组织仓库中的事故、事件和相关数据
  • 定义与这些活动相关的业务度量,管理它们的工作流
  • 提供交互式导航或探索的功能
  • 通过动态链接的记分卡、报告、图表以及突出显示重要信息的地图来提供数据的集成视图
  • 将对决策支持工具的访问集成到工作流管理系统中,并为分析员提供一个协作环境。

仪表板方便了数据探索和可视化以改善预警、决策支持,来辅助调查潜在重要问题,并辅助管理已确定的重要问题。

 

投资预防

有一句老话说:“一分预防赛过十分治疗。”预警系统有助于确认和限定新出现的威胁,让组织及时做出反应,以防止更严重的后果。预警依靠数据收集器、集成并存储数据以备分析的数据仓库、用于抽取信息和检测异常或确认趋势的数据和文本挖掘、用于处理潜在重要问题的业务过程,以及协作工作流管理系统,来方便重要问题管理。

我们只接触了一些突出显示预警系统中基本功能的挖掘应用程序:信息抽取、文档分类和群集、概念分析以及异常检测。综合预警功能的核心技术现在已经可用,预警系统将很快在商业和政府中找到更多用途。

综合预警系统是一项高回报的投资。主动管理产品质量、安全性问题、品牌形象和商业关系的质量可以形成更好的产品、更强大的品牌、节省成本、减少诉讼,以及改善与顾客、供应商和监管当局的关系。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/15082138/viewspace-671860/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/15082138/viewspace-671860/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值