java 字符串分词_Java实现的双向匹配分词算法示例

本文实例讲述了Java实现的双向匹配分词算法。分享给大家供大家参考,具体如下:

目前比较流行的几大分词算法有:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本文采用的是基于字符串匹配法。

正向最大匹配分词:

该算法是基于分词词典实现,从字符串左侧进行分割匹配,如果词典存在则返回分割出来的词语并将该词从之前的字符串中切除,循环进行切割直到字符串大小为0。

例如:str = "我们都是西北农林科技大学信息工程学院的学生。",(假设我们定义最大切割长度max = 8,也就是八个汉字)

1.定义分词长度len = max,从左边取出len个字符word = "我们都是西北农林",并在字典中匹配word;

2.字典中没有该词,那么去掉最后一个字符赋值给word,len值减1;

3.重复步骤2,直到在字典中找到该词或是len = 1,退出循环;

4.从str中切除掉已分割的词语,重复进行1、2、3步骤,直到str被分解完。

逆向最大匹配分词:

和正向分词算法一样,只是从字符串的右边开始切分词语,直到字符串长度为0,。这里不再赘述。

双向匹配分词:

该方法是在正向分词和逆向分词的基础上,对于分割有歧义的语句进行歧义分词。提出“贪吃蛇算法”实现。要进行分词的字符串,就是食物。有2个贪吃蛇,一个从左向右吃;另一个从右向左吃。只要左右分词结果有歧义,2条蛇就咬下一口。贪吃蛇吃下去的字符串,就变成分词。 如果左右分词一直有歧义,两条蛇就一直吃。两条蛇吃到字符串中间交汇时,就肯定不会有歧义了。这时候,左边贪吃蛇肚子里的分词,中间没有歧义的分词,右边贪吃蛇肚子里的分词,3个一拼,就是最终的分词结果。

本文是对整段话进行分词,首先将这段话根据标点符号断句,然后将每句话再进行分词输出。

package cn.nwsuaf.spilt;

import java.io.BufferedReader;

import java.io.FileReader;

import java.io.IOException;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.Scanner;

/**

* 基于正逆双向最大匹配分词算法实现

* @author 刘永浪

*

*/

public class WordSpilt {

/**

* 存储分词词典

*/

private Map map = new HashMap();

/**

* 最大切词长度,即为五个汉字

*/

private int MAX_LENGTH = 5;

/**

* 构造方法中读取分词词典,并存储到map中

*

* @throws IOException

*/

public WordSpilt() throws IOException {

BufferedReader br = new BufferedReader(new FileReader("src/dict.txt"));

String line = null;

while ((line = br.readLine()) != null) {

line = line.trim();

map.put(line, 0);

}

br.close();

}

/**

* 设置最大切词长度

*

* @param max

* 最大切词长度

*/

public void setMaxLength(int max) {

this.MAX_LENGTH = max;

}

/*

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值