关联规则可能是看数据挖掘书的第一个topic。很多的书也会举一个卖尿片的例子,有兴趣的朋友上网找找吧,很经典。我下面要说的是我现在搞的研究,词语之间的关联(association relationship between words)。我们都知道词语是有语意的(semantic meaning),如果我们想把词A与词A'区分开的话,我们就要明确这两个词的semantic meaning。
比如说:
苹果与梨子是不同的,为什么不同呢,苹果比梨子圆些;苹果是红色或绿色的,而梨子是黄色的;苹果没有梨子多汁...还有很多特征,可能说不尽那么多特征。从另一个角度来看的话就是:
苹果 梨子
圆滑度 高 低
颜色 红/绿 黄
水份 少 多
.... ... ...
现在的问题是,对于一个事物,我们有说不尽的属性(attribute),我们只有把这些所有的属性都找出来,然做后一个差(相减,或其它计算距离的方法),才能比较两个词,苹果与梨子的差异。
而我们现在做的这个词语之间的关联可以间接地把这一此绕过去,我们不做semantic的东西,semantic的东西也说不清楚的(目前,希望以后有高手能搞出来,哈~)。
<