本文的主要研究主要是基于一批历史的气象数据来挖掘不同天气形势下的关联性,对空气质量的管控和分析提供合理的指导意见,技术是通用性的,问题是具体业务场景里面的,最初接触到这个任务的时候着实没有特别清晰的实现思路,就我以往的实践经验来水,数据之间的关联性往往会借助于关联规则挖掘算法来实现固有关联规则或者是潜在关联规则的挖掘,数据之间的相似性往往会借助于相似度算法来完成计算,在前者的任务场景里面,参与计算的必然是离散性的数据项集合,后者的任务场景里面大多是连续性的数值向量。
对于当前的问题来说,矛盾点在于:问题的场景比较契合于关联规则挖掘算法的应用场景,但是由于气象数据属于连续性的数据又不能直接使用关联规则挖掘算法,这就需要我们想办法将连续性地数据转化为离散性的数据,本文主要是采用差分分级的离散化思想完成气象数据的离散化处理,之后编写关联规则挖掘算法来实现关联模式的挖掘。
差分分级算法可能是我自己这么称呼的,也可能之前就有这样的叫法了,这个方法是我在本科毕业论文里面第一次使用到的,也是用来处理连续性地数据的,效果很不错,所以这里的任务场景我觉得使用差分分级算法也是行之有效的,简单的背景介绍就到这里,下面我们进入正题。
下面是我从之前的毕业论文里面截取的一部分内容: