weka使用笔记1-FPGrowth注意事项和参数说明-CSDN博客

本文详细介绍了在Linux环境下使用weka进行数据挖掘的步骤，特别关注了关联规则挖掘过程，包括配置环境变量、选择合适的算法（FPGrowth）、理解其参数及其在处理大量数据时的优势和限制。此外，文章还强调了weka数据文件的arff格式及构建稀疏格式文件的重要性，并提供了FPGrowth算法的关键参数解释和如何通过管道保存挖掘结果的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

weka是一个很好的数据挖掘实验的工具，可以进行标准的数据挖掘的各种实验，首先来说一下关联规则的挖掘。

在linux环境下，在使用weka之前，要配置好环境变量，将weka目录下的weka.jar的位置加到classpath中，然后就可以调用weka的命令行进行数据挖掘了。weka的apriori算法优化非常不好，相当占用内存，大约50w的属性开14G的内存都不够用，所以如果在本机进行数据量较大的实验的话，要选FPGrowth算法。FPGrowth算法只需要扫面两遍数据库，虽然他是递归的选择rules的，也比较占用内存，但是如果有4G以上的内存的话，基本上就够用了。至于FPGrowth的算法实现，就不做赘述了，网上一大堆，理解起来也不是很难。

weka默认的数据形式是.arff格式的，arff格式很简单，支持稀疏格式，一般的关联规则都要用稀疏格式的数据，提醒一点的是，构建稀疏格式的arff文件的时候，数据行上一定不要忘记加上｛｝。

FPGrowth的参数：-t，系统默认参数，是指定要进行挖掘的数据文件的；-N，是给出要输出多少条规则；-T是指定选择哪个量进行排序，weka提供四种排序方法，0=confidence ，1=lift ， 2=leverage ， 3=Conviction。4种参数代表的意义一查就有，0，1，3都是越大越好，2一般出来都是0。-C是指你选定的那个排序参数的那个最小值，-M是是支持度的最小值，-U是支持度的最大值。

进行挖掘的时候如果想把输出结果保存的话，可以利用linux的管道，命令后面加上| tee yourFilename就好了。

转载于:https://www.cnblogs.com/fbiswt/archive/2012/10/20/2732422.html