前言
很多人都听说过《红楼梦》的后四十回并非曹雪芹所著。本文就是用关联规则挖掘的方法,验证红楼梦后四十回与前八十回之间的用词差异。
基本概念定义
关联:自然界中某种事物发生时,其他事物也会发生,则称这种联系为关联。反映事件之间依赖或者关联的知识称之为关联型知识。(又称为依赖关系)
关联的类型:简单关联、时序关联、因果关联
关联规则挖掘:在交易数据,关系数据、或其他信息载体中,查找存在于项目集合或者对象集合之间的频繁模式、关联、相关性或者因果结构。
数据:即任务相关的数据,是事务的集合。
事务:是项的集合,且每个事务均具有事务标识符TID。
项集:Items,包含k个项的项集称为k-项集。如二项集{X1,X2}
支持度计数:Support,一个项集出现的次数,就是整个数据集中包含该项集的事务数。
置信度:Confidence,是包含A的事务中同时又包含B的百分比,条件概率。
频繁项集:若一个项集的支持度大于等于某个阈值,则称此项集为频繁项集。
强关联规则:同时满足用户定义最小支持度的阈值、和最小置信度阈值的关联规则。
兴趣度:描述了项集A对项集B的影响力大小&#x