StringToWorkVector

其实我也不知道这个fileter是干什么的。我只是想看看,写在这是为了以后用到的时候方便,这里没有我的理解,直接翻译的,又我的翻译水不平,所以请绕道,不要看,以免误扰你。

简介

我没搞懂,应该是根据tokenizer将STRING类型的ATTRIBUTE转换为一系列ATTRIBUTE。

设置

IDFTransform-是否将文档中word的频率转化为,fij*log(所有doc的数量/包含i的doc数量),其中fij是在document(instance)j中word i的频率。这里的doc指的是instance?,不懂这个选项。

TFTransform-是否将word的频率转化为,log(1+fij),fij含义同上。

attributeIndices-选择将执行操作的attribute,格式:first-3,5,6-10,last,意思应该是1,2,3,5,6,7,8,9,10有效,而4不执行。

attributeNamePrefix-设置产生的attribute的字首,默认为“”

doNotOperateOnPerClassBasis-没搞懂。

invertSelection-false,选中的attributes执行,true,未选中的执行操作。

lowerCaseTokens-转换为小写字母。(应该是)

minTermFreq-设置最小的term frequency(长期频率?),用于a per-class basis.

normalizeDocLength-设置一个instance的word频率,是否归一化

outputWordCounts-输出为数字而不是布尔型(表示是否存在这个word)

periodicPruning-设置定期修剪dictionary的比率。wordsToKeep在创建完dictionary后修剪。你可能无法为这个方法提供足够的内存。

stemmer-用于words的stemming算法。

stopwords-包含stopwords的文件。

tokenizer-用于string的tokenizing算法。

useStoplist-如果为true,则忽略此列表中的词。

wordsToKeep-要保留的words数。

转载于:https://my.oschina.net/luan/blog/77551

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值