将一句话按照语义2-n元切词,工具类

工参考
/**
 * @Description:2-n元分词方法,具体规则如下:
去除字符串头尾的空格和标点符号
把连续相同字符(相邻单字)合并为唯一字符(不合并纯数字字符串和英文),
根据字符串中间的标点符号进行分断处理,形成多个片段(只保留长度大于1的分断字符串,也就是说最小单位是二元)
过滤掉重复的词汇
 */


public class NdivideUtil {
	
	public static String[] divide(String title) {
		List<String> list=new ArrayList<String>();
		List<String> resultList=new ArrayList<String>();
		//根据标点符号,将一句话分成多个语义
		splitByPunctuation(title,list);
		
		String[] wordList=null;
		for (String string2 : list) {
			//根据数字单词分割语义
			wordList=splitByWordandDigit(string2);
			for (String string : wordList) {
				char ch=string.charAt(0);
				if (isChinese(ch)) {//如果这个语义是汉字,去除重复汉字
					String notDuplicateStr=castDuplicateChinese(string);
					String[] stringResult=ndivide(notDuplicateStr);
					for (String string4 : stringResult) {
						resultList.add(string4);
					}
				}else {//如果这个语义是英文或者数字
					resultList.add(string);
				}
			}
		}
		return resultList.toArray(new String[0]);
	}
	
	
	/**
	 * 根据标点符号,将一句话分成多个语义
	 */
	private static void splitByPunctuation(String str,List<String> list) {
		 boolean flag=false;
		for (int i = 0; i <=str.length()-1; i++) {
			char ch=str.charAt(i);
			if (isPunctuation(ch)){
				String[] splitStringArray=str.split("\\"+str.substring(i,i+1));
				for (String string : splitStringArray) {
					splitByPunctuation(string,list);
				}
				flag=true;
				break;
			}
		}
		if (!flag&&str!=null&&str.length()!=0) {
			list.add(str);
		}
	}
	
	
	/**
	 * 根据英文单词和数字,进一步分成多个语义
	 */
	public static String[] splitByWordandDigit(String str) {
		List<String> list=new ArrayList<String>();
		if ("".equals(str)||str.length()==1) {//长度为一 不切
			list.add(str);
			return list.toArray(new String[0]);
		}
		int len=str.length();
		boolean isEnglishStr=false;
		boolean isDigitStr=false;
		boolean isChineseStr=false;
		StringBuilder sb=new StringBuilder();//英文单词
		StringBuilder sbDigit=new StringBuilder();//数字
		StringBuilder sbChinese=new StringBuilder();//中文
		
		for (int i = 0; i <=len-1; i++) {
				char ch=str.charAt(i);
				if (isEnglish(ch)) {//英文
					isEnglishStr=true;
					sb.append(ch);
					
					if (i==len-1) {
						list.add(sb.toString());
						sb.delete(0, sb.length());
					}
					
					if (isDigitStr) {
						list.add(sbDigit.toString());
						sbDigit.delete(0, sbDigit.length());
					}
					isDigitStr=false;
					
					if (isChineseStr) {
						list.add(sbChinese.toString());
						sbChinese.delete(0, sbChinese.length());
					}
					isChineseStr=false;
				}else if (isDigit(ch)) {//数字
					isDigitStr=true;
					sbDigit.append(ch);
					
					if (i==len-1) {
						list.add(sbDigit.toString());
						sbDigit.delete(0, sbDigit.length());
					}
					
					if (isEnglishStr) {
						list.add(sb.toString());
						sb.delete(0, sb.length());
					}
					isEnglishStr=false;
					
					if (isChineseStr) {
						list.add(sbChinese.toString());
						sbChinese.delete(0, sbChinese.length());
					}
					isChineseStr=false;
				}else if (isChinese(ch)) {//中文
					isChineseStr=true;
					sbChinese.append(ch);
					
					if (i==len-1) {
						list.add(sbChinese.toString());
						sbChinese.delete(0, sbChinese.length());
					}
					
					if (isEnglishStr) {
						list.add(sb.toString());
						sb.delete(0, sb.length());
					}
					isEnglishStr=false;
					
					if (isDigitStr) {
						list.add(sbDigit.toString());
						sbDigit.delete(0, sbDigit.length());
					}
					isDigitStr=false;
				}
		}
		return list.toArray(new String[0]);
	}
	
	/**
	 * 去除重复的中文
	 */
	private static String castDuplicateChinese(String string) {
		StringBuilder sb=new StringBuilder();
		char tmpChar='a';
		for (int i = 0; i < string.length(); i++) {
			char ch=string.charAt(i);
			if (ch!=tmpChar) {
				sb.append(ch);
			}
			tmpChar=ch;
		}
		return sb.toString();
	}
	
	
	//判断是否为英文字符
	private static boolean isEnglish(char ch){
		if ((ch >= 0x0041 && ch <= 0x005a)||(ch >= 0x0061 && ch <= 0x007a))
				return true;
		else {
				return false;	
			}
	}
	
	//判断是否为汉字
	private static boolean isChinese(char ch){
		if (ch >= 0x4E00 && ch <= 0x9FA5)
			return true;
		else {
			return false;	
		}
	}
	
	//判断是否为数字
	private static boolean isDigit(char ch){
		if (ch >= 0x0030 && ch <= 0x0039)
			return true;
		else {
			return false;	
		}
	}
	
	//判断是否为标点符号
	private static boolean isPunctuation(char ch){
		if (!(isEnglish(ch)||isChinese(ch)||isDigit(ch)))
			return true;
		else {
			return false;	
		}
	}
	
	public static String[] ndivide(String str) {
		List<String> list=new ArrayList<String>();
		
		if ("".equals(str)||str.length()==1) {//长度为一 不切
			return list.toArray(new String[0]);
		}
		
		int len=str.length();
		for (int i = 2; i <=len; i++) {
			for (int j = 0; j < len-i+1; j++) {
				String topic=str.substring(j, j+i);
				list.add(topic);
			}
		}
		return list.toArray(new String[0]);
	}
}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值