（转）NLPIR（ICTCLAS2016）分词系…

最新推荐文章于 2017-10-09 18:34:34 发布

lanxin0802

最新推荐文章于 2017-10-09 18:34:34 发布

阅读量767

点赞数

本文链接：https://blog.csdn.net/lanxin0802/article/details/65628720

版权

 版权声明：本文为博主 http://blog.csdn.net/churximi 原创文章，未经允许不得转载，谢谢。

备注：win7 64位系统，netbeans编程

基本代码框架参见我的另一篇文章：NLPIR分词功能

代码实现：

[java]view plaincopy 
     
print?
   package cwordseg;  
    
   import java.io.UnsupportedEncodingException;  
   // import utils.SystemParas;  
   import com.sun.jna.Library;  
   import com.sun.jna.Native;  
    
     
    
   public class CWordSeg {  
      public interface CLibrary extends Library {  
          CLibrary Instance = (CLibrary) Native.loadLibrary("D:\\NetBeansProjects\\CWordSeg\\file\\win64\\NLPIR",CLibrary.class);  
          public int NLPIR_Init(String sDataPath,int encoding,String sLicenceCode);  
          public String NLPIR_ParagraphProcess(String sSrc, int bPOSTagged);  
          // 添加用户词汇  
          public int NLPIR_AddUserWord(String sWord);  
          // 删除用户词汇  
          public int NLPIR_DelUsrWord(String sWord);  
          // 保存用户词汇到用户词典  
          public int NLPIR_SaveTheUsrDic();   
          // 导入用户自定义词典：自定义词典路径，bOverwrite=true表示替代当前的自定义词典，false表示添加到当前自定义词典后    
          public int NLPIR_ImportUserDict(String sFilename, boolean bOverwrite);   
          public String NLPIR_GetLastErrorMsg();  
          public void NLPIR_Exit();  
      }  
        
      public static String transString(String aidString,String ori_encoding,String new_encoding) {  
          try {  
              return new String(aidString.getBytes(ori_encoding),new_encoding);  
          } catch (UnsupportedEncodingException e) {  
              e.printStackTrace();  
          }  
          return null;  
      }  
        
      public static void main(String[] args) throws Exception {  
          String argu = "D:\\NetBeansProjects\\CWordSeg\\file";  
          // String system_charset = "UTF-8";  
          int charset_type = 1;                  
          int init_flag = CLibrary.Instance.NLPIR_Init(argu, charset_type, "0");      
          String nativeBytes;  
    
          // 初始化失败提示  
          if (0 == init_flag) {  
              nativeBytes = CLibrary.Instance.NLPIR_GetLastErrorMsg();   
              System.err.println("初始化失败！原因："+nativeBytes);  
              return;  
          }  
            
          String sInput = "这是一本关于信息检索的书，作者是南京大学的。";   
          try {  
              nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 1);  // 分词函数，是否标注词性  
              System.out.println("原始的分词结果为： " + nativeBytes);  
                
              // 添加两个用户词汇，此处为单个添加方法  
              CLibrary.Instance.NLPIR_AddUserWord("信息检索 n");  // n为词性  
              CLibrary.Instance.NLPIR_AddUserWord("南京大学 n");  
              nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 1);  
              System.out.println("增加词汇后结果为： " + nativeBytes);  
                
              CLibrary.Instance.NLPIR_DelUsrWord("南京大学");    // 删除其中一个词汇  
              nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 1);  
              System.out.println("删除词汇后结果为： " + nativeBytes);  
                
              // CLibrary.Instance.NLPIR_SaveTheUsrDic();  // 保存用户自定义词汇，建议不用  
                
              int nCount = CLibrary.Instance.NLPIR_ImportUserDict("D:\\NetBeansProjects\\CWordSeg\\file\\adduserdict.txt",true);   
              System.out.println(String.format("已导入%d个用户词汇", nCount));   
              nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 1);  
              System.out.println("导入词典后结果为： " + nativeBytes);  
                
              CLibrary.Instance.NLPIR_Exit();     // 退出  
                
          } catch (Exception ex) {  
              // TODO Auto-generated catch block  
              ex.printStackTrace();  
          }  
      }  
  }  

添加用户词汇的函数说明：

用户词汇将优先用于分词。

[java]view plaincopy 
     
print?
   public int NLPIR_AddUserWord(String sWord);  

功能：少量词汇逐个添加

参数：sWord表示要添加的词汇，格式为："自定义词汇+空格+词汇词性"，空格可以是多个，也可以用Tab制表符代替；

注意事项：该函数添加的用户自定义词汇具有临时性，即只在本程序的本次运行中有效。因为从Data数据角度来看，该函数并不会修改Data文件夹的词库数据。

[java]view plaincopy 
     
print?
   public int NLPIR_DelUsrWord(String sWord);  

功能：少量词汇逐个删除

参数：sWord表示要删除的词汇，格式为："自定义词汇"。这里没有词性。

注意事项：个人不太明白该函数存在的意义，因为如果想要删除用户词汇的话，只需要将增加临时词汇的NLPIR_AddUserWord()语句注释掉或者删掉即可。该函数既不能删除下面将要提到的NLPIR_SaveTheUsrDic()函数保存的用户词汇，也不能删除NLPIR_ImportUserDict()函数批量导入的词汇。因为该函数不会对Data文件夹里的文件进行修改。

[java]view plaincopy 
     
print?
   public int NLPIR_SaveTheUsrDic();  

功能：将用户词汇保存到系统词典

参数：没有参数，如果保存成功，返回值为1，否则返回值为0。

注意事项：

（1）会将前面添加的所有用户词汇（不包括又删除掉的）保存到用户词典；

（2）通过该函数保存的用户词汇是永久性的，因为会修改Data文件夹里的UserDict.pdat文件，以后的分词程序都会使用已保存的用户词汇；

（3）只能保存NLPIR_AddUserWord()添加的词汇，不能保存NLPIR_ImportUserDict()导入的词汇。

停用方法：由于永久性效果，可用以下方法停用——
方法（1）：打开Data文件夹里的Configure.xml文件，将UserDict参数由on改为off；
方法（2）：用原始的UserDict.pdat文件替换掉现在的。

4.

[java]view plaincopy 
     
print?
   public int NLPIR_ImportUserDict(String sFilename, boolean bOverwrite);  

功能：从词典文本批量导入用户词汇，返回值是添加词汇的个数。

参数：

sFilename为词典文本路径；例如：D:\\NetBeansProjects\\CWordSeg\\file\\adduserdict.txt

bOverwrite=true表示新导入的数据将会覆盖原来的用户自定义词典；

bOverwrite=false表示新导入的数据将会添加到原来用户自定义词典的后面（追加）。

文本词典格式：每行一个，词汇+空格+词性

[java]view plaincopy 
     
print?
   信息检索 n  
  南京大学 n  

注意事项：

（1）通过该函数导入用户词汇会修改Data文件夹里的FieldDict.pdat、FieldDict.pos文件，并会新建一个UserDefinedDict.lst文件，但是不会修改UserDict.pdat文件。所以通过这种方式导入的用户词汇，可以通过导入新的用户词典进行覆盖（bOverwrite=true），或是补充添加新词汇（bOverwrite=false）。

（2）UserDefinedDict.lst文件中记录了已经添加的用户词汇。

（3）如果设置NLPIR_ImportUserDict的参数bOverwrite=false，即新导入的数据不覆盖原有数据，则可以修改UserDefinedDict.lst里的内容（原有词汇），并同时增加新的词汇；
（4）如果设置NLPIR_ImportUserDict的参数bOverwrite=true，新导入的数据将会覆盖原有数据，此时即使修改UserDefinedDict.lst里的内容也会被新数据覆盖掉，最终只保留新导入的词汇。

（5）这种方式导入的用户词汇也是永久性的，分词效果将一直存在。

停用方法：
方法1：打开Data文件夹里的Configure.xml文件，将FieldDict参数由on改为off；
方法2：导入一个空的文本词典；（导入词典可以为空）
方法3：用原始FieldDict.pdat、FieldDict.pos文件替换掉现在的，UserDefinedDict.lst可删可不删。