定义任何应用的数据模型都是项复杂的任务,对于数据挖掘也不例外。实际的挖掘中,有两种定义数据模型的方法:
一是建立公共的数据模型,这个模型为上层所有的应用所共用,但是这一方法需要一个较为长期的过程,而且由于上层应用的多样性与不可预知性,常常会无法确定变量是否重要,也就无法确定变量是否必须保留或删除,一般的做法是考察所有可能的应用,基于这些应用抽取所有的变量或指标;
另外一种数据模型的定义方法是为解决特定业务需求而开发,即不考虑全局,只为特定问题建立所必需的模型,很明显这种做法需要结合灵活的可扩展功能。权威的建议是在尽可能的情况下使用第一种方法,因为公共的数据模型可以提供使用OLAP、数据挖掘等快速查看企业的所有信息,有助于决策的全面性。