其实我也不知道这个fileter是干什么的。我只是想看看,写在这是为了以后用到的时候方便,这里没有我的理解,直接翻译的,又我的翻译水不平,所以请绕道,不要看,以免误扰你。
简介
我没搞懂,应该是根据tokenizer将STRING类型的ATTRIBUTE转换为一系列ATTRIBUTE。
设置
IDFTransform-是否将文档中word的频率转化为,fij*log(所有doc的数量/包含i的doc数量),其中fij是在document(instance)j中word i的频率。这里的doc指的是instance?,不懂这个选项。
TFTransform-是否将word的频率转化为,log(1+fij),fij含义同上。
attributeIndices-选择将执行操作的attribute,格式:first-3,5,6-10,last,意思应该是1,2,3,5,6,7,8,9,10有效,而4不执行。
attributeNamePrefix-设置产生的attribute的字首,默认为“”
doNotOperateOnPerClassBasis-没搞懂。
invertSelection-false,选中的attributes执行,true,未选中的执行操作。
lowerCaseTokens-转换为小写字母。(应该是)
minTermFreq-设置最小的term frequency(长期频率?),用于a per-class basis.
normalizeDocLength-设置一个instance的word频率,是否归一化
outputWordCounts-输出为数字而不是布尔型(表示是否存在这个word)
periodicPruning-设置定期修剪dictionary的比率。wordsToKeep在创建完dictionary后修剪。你可能无法为这个方法提供足够的内存。
stemmer-用于words的stemming算法。
stopwords-包含stopwords的文件。
tokenizer-用于string的tokenizing算法。
useStoplist-如果为true,则忽略此列表中的词。
wordsToKeep-要保留的words数。