Weka学习 -- StringToWordVector 源码学习(1)

代码整个执行流程

  1. 参数设置
  2. input数据,设置数据格式
  3. batchFinished(),处理数据(Tokenzier,Stemming,Stopwords)
  4. determineDictionary();  统计计算(TF,IDF)
  5. 归一化
  6. output

一些变量和方法的作用

  • m_Dictionary , m_DocsCounts  变量与 m_OutputCounts变量 意义
public TreeMap m_Dictionary = new TreeMap(); //TreeMap类型成员变量m_Dictionary 记录<word,新属性index>对;具体类型为TreeMap<String,Integer>, 每一个String 的word所映射的index。
private int[] m_DocsCounts ; // 计算每个单词在多少个文档中出现过,保存在这个数组。数组index是word对应映射的index(与m_Dictionary对应)
private boolean m_OutputCounts = false;   //控制m_Dictionary 中的Integer是输出0/1(表示单词是否在文档中出现),还是count单词在文档中出现的次数。 一般要将它设置为true
  • m_minTermFreq 和 m_WordsToKeep
     根据最小词频数( m_minTermFreq )和每个类最多保留单词数( m_WordsToKeep )过滤单词;另一种过滤单词的方法是通过stopwordlist,见下面。

  • 内部类Count 类及变量的意义

里有两个变量public int count, docCount;,count是word在一个文档中出现的次数,docCount指的是这个word在几个文档中出现过。
定义这个内部类及变量计算中间量,主要是为了计算TF*IDF方便。

  • 修改具体的TF*IDF公式:

在函数convertInstancewoDocNorm里面如下的两段代码中修改即可。
// Doing TFTransform
if (m_TFTransform == true) {
.....//在这里修改, 源代码为 tf(t,d)= log( f(t,d) +1 ).加一是为了防止tf(t,d)=0
}

// Doing IDFTransform
if (m_IDFTransform == true) {
.....//在这里修改, 源代码是让idf(t,D)= log( |D| / |{d \in D : t\ind}| ). D表示所有的文档集。 log(value)中的value肯定大于等于1  //当然这里需保证分母不为0,即word至少在一个文档中出现过,否则可 idf(t,D)=   log ( |D| / |{d \in D : t\ind}|+1 ). 
....// 源代码直接让val (t,d)= tf(t,d) * log( |D| / |{d \in D : t\ind
  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值