中文分词算法 之 基于词典的逆向最大匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。

 

下面我们看看基于词典的逆向最大匹配算法的实现,如下代码所示:

 

Java代码   收藏代码
  1. public static List<String> segReverse(String text){          
  2.     Stack<String> result = new Stack<>();  
  3.     while(text.length()>0){  
  4.         int len=MAX_LENGTH;  
  5.         if(text.length()<len){  
  6.             len=text.length();  
  7.         }  
  8.         //取指定的最大长度的文本去词典里面匹配  
  9.         String tryWord = text.substring(text.length() - len);  
  10.         while(!DIC.contains(tryWord)){  
  11.             //如果长度为一且在词典中未找到匹配,则按长度为一切分  
  12.             if(tryWord.length()==1){  
  13.                 break;  
  14.             }  
  15.             //如果匹配不到,则长度减一继续匹配  
  16.             tryWord=tryWord.substring(1);  
  17.         }  
  18.         result.push(tryWord);  
  19.         //从待分词文本中去除已经分词的文本  
  20.         text=text.substring(0, text.length()-tryWord.length());  
  21.     }  
  22.     int len=result.size();  
  23.     List<String> list = new ArrayList<>(len);  
  24.     for(int i=0;i<len;i++){  
  25.         list.add(result.pop());  
  26.     }  
  27.     return list;  
  28. }  

 

 

算法跟正向相差不大,重点是使用Stack来存储分词结果,具体差异如下图所示:



 

下面看看正向和逆向的分词效果,使用如下代码:

 

Java代码   收藏代码
  1. public static void main(String[] args){  
  2.     List<String> sentences = new ArrayList<>();  
  3.     sentences.add("杨尚川是APDPlat应用级产品开发平台的作者");  
  4.     sentences.add("研究生命的起源");  
  5.     sentences.add("长春市长春节致辞");  
  6.     sentences.add("他从马上下来");  
  7.     sentences.add("乒乓球拍卖完了");  
  8.     sentences.add("咬死猎人的狗");  
  9.     sentences.add("大学生活象白纸");  
  10.     sentences.add("他有各种才能");  
  11.     sentences.add("有意见分歧");  
  12.     for(String sentence : sentences){  
  13.         System.out.println("正向最大匹配: "+seg(sentence));  
  14.         System.out.println("逆向最大匹配: "+segReverse(sentence));  
  15.     }  
  16. }  

 

 

运行结果如下:

 

Java代码   收藏代码
  1. 开始初始化词典  
  2. 完成初始化词典,词数目:427452  
  3. 最大分词长度:16  
  4. 正向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]  
  5. 逆向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]  
  6. 正向最大匹配: [研究生, 命, 的, 起源]  
  7. 逆向最大匹配: [研究, 生命, 的, 起源]  
  8. 正向最大匹配: [长春市, 长春, 节, 致辞]  
  9. 逆向最大匹配: [长春, 市长, 春节, 致辞]  
  10. 正向最大匹配: [他, 从, 马上, 下来]  
  11. 逆向最大匹配: [他, 从, 马上, 下来]  
  12. 正向最大匹配: [乒乓球拍, 卖完, 了]  
  13. 逆向最大匹配: [乒乓球拍, 卖完, 了]  
  14. 正向最大匹配: [咬, 死, 猎人, 的, 狗]  
  15. 逆向最大匹配: [咬, 死, 猎人, 的, 狗]  
  16. 正向最大匹配: [大学生, 活象, 白纸]  
  17. 逆向最大匹配: [大学生, 活象, 白纸]  
  18. 正向最大匹配: [他, 有, 各种, 才能]  
  19. 逆向最大匹配: [他, 有, 各种, 才能]  
  20. 正向最大匹配: [有意, 见, 分歧]  
  21. 逆向最大匹配: [有, 意见分歧]  

 

 

参考资料:

1、中文分词十年回顾

2、中文信息处理中的分词问题

3、汉语自动分词词典机制的实验研究

4、由字构词_中文分词新方法

5、汉语自动分词研究评述

 

NUTCH/HADOOP视频教程

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值