java 最大分词算法_Java实现的最大匹配分词算法详解

本文详细介绍了Java实现的最大匹配分词算法,包括正向和逆向最大匹配方法,并给出了具体的代码示例。通过词典分词,该算法可以对输入的文本进行有效的分词处理,提高全文检索的准确性。
摘要由CSDN通过智能技术生成

本文实例讲述了java实现的最大匹配分词算法。分享给大家供大家参考,具体如下:

全文检索有两个重要的过程:

1分词

2倒排索引

我们先看分词算法

目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:m(a,b)=p(ab)/p(a)p(b),其中 a表示一个字,b表示一个字,p(ab)表示ab相邻出现的概率,p(a)表示a在这篇文章中的频度,p(b)表示b在这篇文章中的频度。用概率分词的好 处是不需要借助词典的帮助,坏处是算法比较麻烦,效率不高,也存在一定的出错率。

另外的一个方向是使用词典分词。就是事先为程序准备一个词典,然后通过这个词典对文章分词。目前较流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在准确性上要更好一些。

以 “我是一个坏人” 为例,并最大词长为3,词库包含有 我、是、一、个、一个、坏人、大坏人

正向的顺序为

我是一

我是

我 ===> 得到一个词

是一个

是一

是 ===>得到一个词

一个坏

一个===> 得到一个词

坏人===>得到一个词

结果 我、是、一个、坏人

反向算法

个坏人

坏人==> 坏人

是一个

一个==> 一个

我是

是==> 是

我==> 我

结果 我、是、一个、坏人

java代码如下

package data;

import java.util.arrays;

import java.util.hashset;

import java.util.set;

/**

* 最大匹配分词算法

*

* @author jyc506

*

*/

public class splitstring {

private set set = new hashset();

private int positiveover = 0;

private int reverseover = 0;

/**

* 正向最大匹配

*

* @param str 要分词的句子

* @param num 词的最大长度

* @return

*/

public string[] positivesplit(string str, int maxsize) {

int tem = 0;

int length = str.length();

string[] ss = new string[length];

char[] cc = str.tochararray();

for (int i = 0; i < length; i++) {

positiveover = 0;

string sb = this.tostr(cc, i, maxsize);

ss[tem++] = sb;

i = i + positiveover;

}

string[] ss2 = new string[tem];

system.arraycopy(ss, 0, ss2, 0, tem);

return ss2;

}

/**

* 添加词库

*

* @param words

*/

public void addword(string[] words) {

for (string st : words) {

this.set.add(st);

}

}

/**

* 逆向最大匹配

*

* @param str

* @param num

* @return

*/

public string[] reversesplit(string str, int num) {

int tem = 0;

int length = str.length();

string[] ss = new string[length];

char[] cc = str.tochararray();

for (int i = str.length() - 1; i > -1; i--) {

reverseover = 0;

string sb = this.tostr2(cc, i, num);

tem++;

ss[--length] = sb;

i = i - reverseover;

}

string[] ss2 = new string[tem];

system.arraycopy(ss, str.length() - tem, ss2, 0, tem);

return ss2;

}

private string tostr(char[] cs, int start, int num) {

int num2 = num;

out: for (int j = 0; j < num; j++) {

stringbuffer sb = new stringbuffer();

for (int i = 0; i < num2; i++) {

if (start + i < cs.length) {

sb.append(cs[start + i]);

} else {

num2--;

j--;

continue out;

}

}

if (set.contains(sb.tostring())) {

positiveover = num2 - 1;

return sb.tostring();

}

num2--;

}

return string.valueof(cs[start]);

}

private string tostr2(char[] cs, int start, int num) {

int num2 = num;

for (int j = 0; j < num; j++) {

stringbuffer sb = new stringbuffer();

for (int i = 0; i < num2; i++) {

int index = start - num2 + i + 1;

if (index > -1) {

sb.append(cs[index]);

} else {

num2--;

}

}

if (set.contains(sb.tostring())) {

reverseover = num2 - 1;

return sb.tostring();

}

num2--;

}

return string.valueof(cs[start]);

}

public static void main(string[] args) {

string[] words = new string[] { "我们", "我们五人", "五人一组", "一组" };

splitstring ss = new splitstring();

/*添加词到词库*/

ss.addword(words);

string st = "我们五人一组";

system.out.println("萬仟网测试结果:");

system.out.println("要分词的句子:" + st);

/*使用两种方式分词,下面我指定最大词长度为4*/

string[] ss2 = ss.reversesplit(st, 4);

string[] ss1 = ss.positivesplit(st, 4);

system.out.println("正向最大匹配分词算法分词结果:" + arrays.tostring(ss1));

system.out.println("逆向最大匹配分词算法分词结果:" + arrays.tostring(ss2));

}

}

88be60d489751f465b84a5b6930c2c8b.png

希望本文所述对大家java程序设计有所帮助。

希望与广大网友互动??

点此进行留言吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值