python双向最大匹配算法_中文分词算法之基于词典的逆向最大匹配算法

最新推荐文章于 2021-02-12 07:38:22 发布

圈泉

最新推荐文章于 2021-02-12 07:38:22 发布

阅读量840

点赞数 1

文章标签： python双向最大匹配算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36344862/article/details/113508795

版权

在之前的博文中介绍了基于词典的正向最大匹配算法，用了不到50行代码就实现了，然后分析了词典查找算法的时空复杂性，最后使用前缀树来实现词典查找算法，并做了3次优化。

下面我们看看基于词典的逆向最大匹配算法的实现，实验表明，对于汉语来说，逆向最大匹配算法比(正向)最大匹配算法更有效，如下代码所示：

public static List segReverse(String text){

Stack result = new Stack<>();

while(text.length()>0){

int len=MAX_LENGTH;

if(text.length()

len=text.length();

}

//取指定的最大长度的文本去词典里面匹配

String tryWord = text.substring(text.length() - len);

while(!DIC.contains(tryWord)){

//如果长度为一且在词典中未找到匹配，则按长度为一切分

if(tryWord.length()==1){

break;

}

//如果匹配不到，则长度减一继续匹配

tryWord=tryWord.substring(1);

}

result.push(tryWord);

//从待分词文本中去除已经分词的文本

text=text.substring(0, text.length()-tryWord.length());

}

int len=result.size();

List list = new ArrayList<>(len);

for(int i=0;i

list.add(result.pop());

}

return list;

}

算法跟正向相差不大，重点是使用Stack来存储分词结果，具体差异如下图所示：

下面看看正向和逆向的分词效果，使用如下代码：

public static void main(String[] args){

List sentences = new ArrayList<>();

sentences.add("杨尚川是APDPlat应用级产品开发平台的作者");

sentences.add("研究生命的起源");

sentences.add("长春市长春节致辞");

sentences.add("他从马上下来");

sentences.add("乒乓球拍卖完了");

sentences.add("咬死猎人的狗");

sentences.add("大学生活象白纸");

sentences.add("他有各种才能");

sentences.add("有意见分歧");

for(String sentence : sentences){

System.out.println("正向最大匹配: "+seg(sentence));

System.out.println("逆向最大匹配: "+segReverse(sentence));

}

}

运行结果如下：

开始初始化词典

完成初始化词典，词数目：427452

最大分词长度：16

正向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]

逆向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]

正向最大匹配: [研究生, 命, 的, 起源]

逆向最大匹配: [研究, 生命, 的, 起源]

正向最大匹配: [长春市, 长春, 节, 致辞]

逆向最大匹配: [长春, 市长, 春节, 致辞]

正向最大匹配: [他, 从, 马上, 下来]

逆向最大匹配: [他, 从, 马上, 下来]

正向最大匹配: [乒乓球拍, 卖完, 了]

逆向最大匹配: [乒乓球拍, 卖完, 了]

正向最大匹配: [咬, 死, 猎人, 的, 狗]

逆向最大匹配: [咬, 死, 猎人, 的, 狗]

正向最大匹配: [大学生, 活象, 白纸]

逆向最大匹配: [大学生, 活象, 白纸]

正向最大匹配: [他, 有, 各种, 才能]

逆向最大匹配: [他, 有, 各种, 才能]

正向最大匹配: [有意, 见, 分歧]

逆向最大匹配: [有, 意见分歧]

下面看看实际的分词性能如何，对输入文件进行分词，然后将分词结果保存到输出文件，输入文本文件从这里下载，解压后大小为69M，词典文件从这里下载，解压后大小为4.5M，项目源代码托管在GITHUB：

/**

* 将一个文件分词后保存到另一个文件

* @author 杨尚川

*/

public class SegFile {

public static void

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python双向最大匹配算法_中文分词算法之基于词典的逆向最大匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法，用了不到50行代码就实现了，然后分析了词典查找算法的时空复杂性，最后使用前缀树来实现词典查找算法，并做了3次优化。下面我们看看基于词典的逆向最大匹配算法的实现，实验表明，对于汉语来说，逆向最大匹配算法比(正向)最大匹配算法更有效，如下代码所示：publicstaticListsegReverse(Stringtext){Stackresul...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。