StringToWorkVector

最新推荐文章于 2020-11-01 21:53:37 发布

weixin_33953249

最新推荐文章于 2020-11-01 21:53:37 发布

阅读量96

点赞数

原文链接：https://my.oschina.net/luan/blog/77551

版权

为什么80%的码农都做不了架构师？>>>

其实我也不知道这个fileter是干什么的。我只是想看看，写在这是为了以后用到的时候方便，这里没有我的理解，直接翻译的，又我的翻译水不平，所以请绕道，不要看，以免误扰你。

简介

我没搞懂，应该是根据tokenizer将STRING类型的ATTRIBUTE转换为一系列ATTRIBUTE。

设置

IDFTransform-是否将文档中word的频率转化为，fij*log(所有doc的数量/包含i的doc数量)，其中fij是在document(instance)j中word i的频率。这里的doc指的是instance？，不懂这个选项。

TFTransform-是否将word的频率转化为，log(1+fij)，fij含义同上。

attributeIndices-选择将执行操作的attribute，格式：first-3,5,6-10,last，意思应该是1，2，3，5，6，7，8，9，10有效，而4不执行。

attributeNamePrefix-设置产生的attribute的字首，默认为“”

doNotOperateOnPerClassBasis-没搞懂。

invertSelection-false，选中的attributes执行，true，未选中的执行操作。

lowerCaseTokens-转换为小写字母。（应该是）

minTermFreq-设置最小的term frequency(长期频率？)，用于a per-class basis.

normalizeDocLength-设置一个instance的word频率，是否归一化

outputWordCounts-输出为数字而不是布尔型（表示是否存在这个word）

periodicPruning-设置定期修剪dictionary的比率。wordsToKeep在创建完dictionary后修剪。你可能无法为这个方法提供足够的内存。

stemmer-用于words的stemming算法。

stopwords-包含stopwords的文件。

tokenizer-用于string的tokenizing算法。

useStoplist-如果为true，则忽略此列表中的词。

wordsToKeep-要保留的words数。

转载于:https://my.oschina.net/luan/blog/77551

weixin_33953249

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。