THUCTC源码解读(二)

在通过Demo初步了解了THUCTC的用法以后,开始深入探究THUCTC的结构,了解实现方式。只要了解了代码结构,才能了解背后的原理和优化方法,也方便在此基础上做出自己的改进。


THUCTC的主要原理

首先,会将训练文本进行分词处理,然后进行词频统计,通过统计词频和包含该词的文档频率,利用卡方(Chi-Square)检验来选择出特征词,并以此为依据构造文档向量(DocumentVector),词向量中的每一项均代表一个特征(词),具体的值则为相应的权重,这里一般采用TF-IDF方式,即词的重要性与该文档中该次出现次数成正比,与包含该词的文件频率成反比。在构造完文档向量之后,则将训练和分类的任务交给了现成的库(liblinear或libsvm)。因此,也可以说,THUCTC主要完成的是文档的向量化工作。


Word类

Word类是THUCTC中最基本的类之一,功能很简单,就是存储单词信息,是词典的基本单元
存储的内容有:

  • id 该词在词典(Lexicon)中的id
  • name 该词本身,如”中国”
  • tf 即term frequency,词频,指该词在所有文档中出现次数
  • df 即document frequency ,文频,指出现该词的文档数

Lexicon类

Lexicon,即词典类,顾名思义,处理与词典相关的操作,其基本组成是Word对象。Lexicon类中的变量有:

Hashtable<Integer, Word> idHash     //从id到Word的映射,能够根据id获得对应Word对象
Hashtable<String, Word> nameHash    //从name到Word的映射,能够根据单词获得对应Word对象
long numDocs        // 处理过的文档数目
boolean locked      // 当词典被锁定时,locked=true 此时无法向词典中加入新Word

Set<Integer> termSet //是一个private项,用于保存一个文档中出现过的单词,用于统计df

在来看Lexicon类中的方法,主要有

[1] public Lexicon()
[2] public Word getWord( int id )
[3] public Word getWord( String name )
[4] public void addDocument ( String [] doc ) 
[5] public Word [] convertDocument ( String [] doc )
[6] protected Word buildWord ( String termString )
[7] public boolean loadFromFile( File f )
[8] public boolean loadFromInputStream(InputStream input)
[9] public Lexicon map( Map<Integer, Integer> translation ) 

我们一个个来看。

[1] public Lexicon()

public Lexicon () {
    idHash = new Hashtable<Integer, Word>(50000);
    nameHash = new Hashtable<String, Word>(50000);
    locked = false;
    numDocs = 0;
  }

构建Lexicon对象的时候,
构建空的idHash和nameHash,容量为50000
将locked设为false, 即可以添加新单词
将numDocs设为0,表示未处理过文档

[2]public Word getWord( int id ), [3] public Word getWord( String name )

  public Word getWord( int id ) {
    return idHash.get ( id );
  }
  public Word getWord( String name ) {
    return nameHash.get ( name );
  }

[2]和[3]可以一起来看,前者是根据id提取出Word,后者根据name提取出Word

[4] public void addDocument ( String [] doc )

这个函数用于处理新文档以更新词典的状态(单词项,tf, df 值等等)
函数的输入doc需要是一个String数组,即此时的文档是分词完毕以后的结果,数组中的每一个字符串都是一个单词

public void addDocument ( String [] doc ) {
    termSet.clear(); // 将termSet清空,准备处理新文档
    for ( String token : doc ) {
      Word t = nameHash.get(token); // 对于每个单词,使用nameHash获取对应Word对象
      if ( t == null ) {  
        if ( locked )  
          continue;     // 若此时词典中无该单词但是locked=true,则跳过,即不添加新词
        t = new Word(); // 若locked=false,则添加新词
        t.name = token;
        t.id = nameHash.size();
        t.tf = 0;       
        t.df = 0;
        nameHash.put(t.name, t); //将新词添加进idHash和nameHash
        idHash.put(t.id, t);
      }
      t.tf += 1;  // 该词的term frequency +1 
      if ( ! termSet.contains(t.id) ) {
        termSet.add(t.id); // 若该文档之前没出现过这个词,则该词的文档频率+1,否则不管
        t.df++;
      }
    }
    numDocs ++ ;  // numDocs++ ,表示处理过的文档数增加1
}

[5] public Word [] convertDocument ( String [] doc )

将分词后的文档转化成Word数组。如果出现新词,若locked=true 则更新词典,否则会跳过该新词

public Word [] convertDocument ( String [] doc ) {
    Word [] terms = new Word[doc.length];  // 根据doc的长度来建立Word数组
    int n = 0;
    for ( int i = 0 ; i < doc.length ; i++ ) {
      String token = doc[i];
      Word t = nameHash.get( token );  
      if ( t == null ) {
        if ( locked ) 
          continue;
        t = new Word ();
        t.name = token;
        t.tf = 1;
        t.df = 1;
        t.id = nameHash.size();
        nameHash.put(t.name, t);
        idHash.put(t.id, t);
      }
      terms[n++] = t; // 到此为止总体跟[4]addDocument比较相似,
      //但是要注意当locked=true时,碰到新词是会跳过的
      //也就是说,有可能会出现Word向量的长度小于doc长度的情况
    }
    if ( n < terms.length ) {
      Word [] finalterms = new Word[n]; //这边就是处理上面提到过的情况
      for ( int i = 0 ; i < n ; i++ ) {
        finalterms[i] = terms[i];
      }
      terms = finalterms;
    }
    return terms;
}

[6] protected Word buildWord ( String termString )

这个方法是protected类型,不对外开放,是为下面两个方法loadFromInputStream服务的。
实现了根据一行字符串来新建Word对象的功能

  protected Word buildWord ( String termString ) {
      // 举例;  26163:附赠:114:94
    Word t = null;
    String [] parts = termString.split(":"); //将字符串根据';'分割成字符串数组
    if ( parts.length == 4 ) {
      t = new Word(); // 各项的值分别是: id,name,tf,df
      t.id = Integer.parseInt(parts[0]);
      t.name = parts[1].replace(COLON_REPLACER, ":");
      t.tf = Integer.parseInt(parts[2]);
      t.df = Integer.parseInt(parts[3]);
    }
    return t;
  }

[7] public boolean loadFromFile( File f )

这个函数和后面的loadFromInputStream功能类似,都是用于从本地文件中载入之前构造好的词典
这个函数比较简单,先将文件转化成FileInputStream,然后调用[8]loadFromInputStream

  public boolean loadFromFile( File f ) {
    FileInputStream fis;
    try {
      fis = new FileInputStream(f); //FileInputStream能将文件转化成字节流
    } catch (FileNotFoundException e) {
      return false;
    }
    return loadFromInputStream(fis);
  }

[8] public boolean loadFromInputStream(InputStream input)

用于从字节流中载入之前构造好的词典

public boolean loadFromInputStream(InputStream input) {
    nameHash.clear();  // 先将之前的nameHash和idHash清空
    idHash.clear();
    try {
        //BufferedReader( InputStreamReader( FileInputStream( File ) ) )
        // FileInputStream 能把文件转化成字节流
        // InputStreamReader 按照字节读取,一个汉字为2个字节
        // BufferedReader 可以整行读取,效率更高
      BufferedReader reader =
        new BufferedReader( new InputStreamReader( input, "UTF-8") );

      String termString;
      numDocs = Integer.parseInt(reader.readLine()); //文件中的第一行为numDocs
      while ( (termString = reader.readLine()) != null ) {
          // lexion 中每一行,分别是id, name, tf, df
        Word t = buildWord( termString );  // 调用[6]buildWord方法
        if ( t != null ) {
          nameHash.put( t.name, t); // 对于每一个词,都存入idHash和nameHash
          idHash.put( t.id, t);
        }
      }
      reader.close();   //关闭reader
    } catch (UnsupportedEncodingException e) {
      return false;
    } catch (IOException e) {
      return false;
    }
    return true;
  }

[9] public Lexicon map( Map《Integer, Integer》 translation )

用于根据映射表来生成新的词典。

/**
   * 紧缩词典,利用一个map把原来编号为key的word变为编号为value的word,去掉不在key
   * 中的word
   * @param translation 影射表
   */
  public Lexicon map( Map<Integer, Integer> translation ) {
      // 根据映射表生成新的词典
      // 映射表的左边为该词在现有词典中的id
      // 映射表的右边为该词在新词典中的id
      // 注意,新词典的size只与映射表的长度有关,与旧词典的size无关
    Lexicon newlex = new Lexicon();
    Hashtable<Integer, Word> newIdHash = new Hashtable<Integer, Word>();
    Hashtable<String, Word> newNameHash = new Hashtable<String, Word>();

    for ( Entry<Integer, Integer> e : translation.entrySet()){
      Word w = idHash.get(e.getKey());
      Word nw = (Word) w.clone();
      nw.id = e.getValue();
      newIdHash.put(nw.id, nw);
      newNameHash.put(nw.getName(), nw);
    }
    newlex.idHash = newIdHash;
    newlex.nameHash = newNameHash;
    newlex.numDocs = this.numDocs;
    return newlex;
  }
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
flowable源码解读是指对flowable工作流引擎的源代码进行分析和理解。flowable是一个开源的工作流引擎,用于实现和管理复杂的业务流程。在源码解读过程中,可以深入了解flowable的设计原理、核心组件和算法实现。 根据引用,流程定义是将一个流程XML文件部署到flowable中,从而创建一个定义好的流程。因此,在flowable的源码解读中,可以关注流程定义的实现方式和流程XML文件的解析过程。 引用中提到了从基础讲起,结合应用场景,由浅入深地解释BPMN和Flowable的相关组件,并结合具体实例演示功能的使用和注意事项。这表明在源码解读中,可以结合实际应用场景,逐步深入地了解Flowable的不同组件的实现原理和使用方式。 引用中介绍了BPMN2.0定义的流程元素,包括流程对象、连接对象、泳道和数据和制品。在源码解读中,可以重点关注这些元素的实现和它们在flowable源代码中的具体实现方式。 总而言之,flowable源码解读是通过对flowable工作流引擎的源代码进行分析和理解,来深入了解flowable的设计原理、核心组件和算法实现。通过结合实际应用场景和流程定义的解析过程,我们能够更加全面地理解flowable工作流引擎的实现原理和使用方式。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Flowable从入门到源码分析](https://blog.csdn.net/weixin_46399870/article/details/130277499)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Flowable从入门到精通源码](https://download.csdn.net/download/qq_36305027/85422953)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值