数据挖掘:从实践到理论的探索之旅
1. 早期实践项目
在数据挖掘的实践探索中,有几个早期项目具有重要意义。
1.1 卡卡杜国家公园丛林火灾预测专家系统
澳大利亚联邦科学与工业研究组织(CSIRO)的土地与水研究部门,在理查德·戴维斯博士的带领下,为卡卡杜国家公园开发丛林火灾预测专家系统。卡卡杜位于澳大利亚北领地,常遭受由鲁莽旅行者引发的毁灭性丛林火灾。当地原住民在数百年间发展出了通过火灾管理环境的复杂知识。我们的任务是在空间导向的专家系统中捕捉这些原住民的专业知识。该系统与原住民长老合作开发知识库,旨在通过空间推理预测丛林火灾的范围,实现可控燃烧和火灾管理。这个项目取得了成功,开发了基于Prolog的空间专家系统,我也借此机会发表了第一篇论文,并在法国的国际会议上获得最佳学生论文奖。
1.2 决策树与第四代语言(4GL)
我带领团队将决策树归纳算法集成到墨尔本BBJ计算机公司的第四代语言(4GL)“Today”中。“Today”可快速开发数据库系统,集成决策树算法后,客户不仅能构建数据库系统,还能从数据库中发现知识。经过一年的开发,系统在澳大利亚和欧洲销售,这是将知识发现或数据挖掘(当时称为机器学习)融入数据库环境的早期范例。
1.3 汽车贷款专家系统
1989年,通过与Esanda金融公司(澳新银行集团子公司)的咨询合作,我们利用决策树归纳技术为汽车贷款审批构建专家系统。此前,汽车贷款审批流程繁琐,需要电话沟通和离线信息处理。Esanda积累了多年的汽车贷款盈利能力数据,包括违约和可靠还款客户的记录。我们基于这些数据构建决策树模型,并将其集成到贷款系统中。汽车销售场的财务控制器只需输入客