在R语言中,使用grid()函数可以在绘图的基础上添加网格线,其参数主要包括:ny用于设置水平网格的数目,nx用于设置垂直网格的数目。当设置为NA时,表示不绘制网格线。
下面的表(一),是数据集Mushroom.dat在不同的阈值下,搜索频繁集所需要的时间。
用R语言,把上表里的数据转换为网格图,如下:
x.text <- c(5,10,15,20,25)
sales.volume <- c(29.312,4.781,1.14,0.797,0.422)
plot(sales.volume,type="o",ylim=c(0,35),pch=15,xaxt="n",
main="Mushroom Data set mining time",xlab="阈值(%)",
ylab="Mining time(s)")
##5个刻度,分别为5%、10%、15%、20%、25%
axis(1,at=1:5,labels=x.text)
grid(nx=NA,ny=8,lwd=1,lty=2,col="blue")
效果如下:
图(1)不同的阈值所需的时间表
从图(1)可以看出,阈值越大,搜索时间越短,这表明随着支持度的提高,频繁集的个数会不断减少。如果把阈值(支持度)设置为5%,那么需要花费的时间是29.312s。而设置为10%时,只需4.781s。在实验中,合理地设置一个阈值,有利于减少搜索频繁集的时间。