工参考
/**
* @Description:2-n元分词方法,具体规则如下:
去除字符串头尾的空格和标点符号
把连续相同字符(相邻单字)合并为唯一字符(不合并纯数字字符串和英文),
根据字符串中间的标点符号进行分断处理,形成多个片段(只保留长度大于1的分断字符串,也就是说最小单位是二元)
过滤掉重复的词汇
*/
public class NdivideUtil {
public static String[] divide(String title) {
List<String> list=new ArrayList<String>();
List<String> resultList=new ArrayList<String>();
//根据标点符号,将一句话分成多个语义
splitByPunctuation(title,list);
String[] wordList=null;
for (String string2 : list) {
//根据数字单词分割语义
wordList=splitByWordandDigit(string2);
for (String string : wordList) {
char ch=string.charAt(0);
if (isChinese(ch)) {//如果这个语义是汉字,去除重复汉字
String notDuplicateStr=castDuplicateChinese(string);
String[] stringResult=ndivide(notDuplicateStr);
for (String string4 : stringResult) {
resultList.add(string4);
}
}else {//如果这个语义是英文或者数字
resultList.add(string);
}
}
}
return resultList.toArray(new String[0]);
}
/**
* 根据标点符号,将一句话分成多个语义
*/
private static void splitByPunctuation(String str,List<String> list) {
boolean flag=false;
for (int i = 0; i <=str.length()-1; i++) {
char ch=str.charAt(i);
if (isPunctuation(ch)){
String[] splitStringArray=str.split("\\"+str.substring(i,i+1));
for (String string : splitStringArray) {
splitByPunctuation(string,list);
}
flag=true;
break;
}
}
if (!flag&&str!=null&&str.length()!=0) {
list.add(str);
}
}
/**
* 根据英文单词和数字,进一步分成多个语义
*/
public static String[] splitByWordandDigit(String str) {
List<String> list=new ArrayList<String>();
if ("".equals(str)||str.length()==1) {//长度为一 不切
list.add(str);
return list.toArray(new String[0]);
}
int len=str.length();
boolean isEnglishStr=false;
boolean isDigitStr=false;
boolean isChineseStr=false;
StringBuilder sb=new StringBuilder();//英文单词
StringBuilder sbDigit=new StringBuilder();//数字
StringBuilder sbChinese=new StringBuilder();//中文
for (int i = 0; i <=len-1; i++) {
char ch=str.charAt(i);
if (isEnglish(ch)) {//英文
isEnglishStr=true;
sb.append(ch);
if (i==len-1) {
list.add(sb.toString());
sb.delete(0, sb.length());
}
if (isDigitStr) {
list.add(sbDigit.toString());
sbDigit.delete(0, sbDigit.length());
}
isDigitStr=false;
if (isChineseStr) {
list.add(sbChinese.toString());
sbChinese.delete(0, sbChinese.length());
}
isChineseStr=false;
}else if (isDigit(ch)) {//数字
isDigitStr=true;
sbDigit.append(ch);
if (i==len-1) {
list.add(sbDigit.toString());
sbDigit.delete(0, sbDigit.length());
}
if (isEnglishStr) {
list.add(sb.toString());
sb.delete(0, sb.length());
}
isEnglishStr=false;
if (isChineseStr) {
list.add(sbChinese.toString());
sbChinese.delete(0, sbChinese.length());
}
isChineseStr=false;
}else if (isChinese(ch)) {//中文
isChineseStr=true;
sbChinese.append(ch);
if (i==len-1) {
list.add(sbChinese.toString());
sbChinese.delete(0, sbChinese.length());
}
if (isEnglishStr) {
list.add(sb.toString());
sb.delete(0, sb.length());
}
isEnglishStr=false;
if (isDigitStr) {
list.add(sbDigit.toString());
sbDigit.delete(0, sbDigit.length());
}
isDigitStr=false;
}
}
return list.toArray(new String[0]);
}
/**
* 去除重复的中文
*/
private static String castDuplicateChinese(String string) {
StringBuilder sb=new StringBuilder();
char tmpChar='a';
for (int i = 0; i < string.length(); i++) {
char ch=string.charAt(i);
if (ch!=tmpChar) {
sb.append(ch);
}
tmpChar=ch;
}
return sb.toString();
}
//判断是否为英文字符
private static boolean isEnglish(char ch){
if ((ch >= 0x0041 && ch <= 0x005a)||(ch >= 0x0061 && ch <= 0x007a))
return true;
else {
return false;
}
}
//判断是否为汉字
private static boolean isChinese(char ch){
if (ch >= 0x4E00 && ch <= 0x9FA5)
return true;
else {
return false;
}
}
//判断是否为数字
private static boolean isDigit(char ch){
if (ch >= 0x0030 && ch <= 0x0039)
return true;
else {
return false;
}
}
//判断是否为标点符号
private static boolean isPunctuation(char ch){
if (!(isEnglish(ch)||isChinese(ch)||isDigit(ch)))
return true;
else {
return false;
}
}
public static String[] ndivide(String str) {
List<String> list=new ArrayList<String>();
if ("".equals(str)||str.length()==1) {//长度为一 不切
return list.toArray(new String[0]);
}
int len=str.length();
for (int i = 2; i <=len; i++) {
for (int j = 0; j < len-i+1; j++) {
String topic=str.substring(j, j+i);
list.add(topic);
}
}
return list.toArray(new String[0]);
}
}