使用java去除字符串中相邻的重复字符,代码如下:
public static void main(String[] args) {
// 去除语句中相邻的重复字
String str = "他他他说的我那个那个都都明白的的,没错是的没错是的是这样的," +
"客户说这个这个这个业务比较复杂,很复杂的复杂,而且,而且,数据量也很大大。";
System.out.println("开始" + System.currentTimeMillis());
System.out.println(str);
// 去重复
System.out.println(handleStr(str));
System.out.println("结束" + System.currentTimeMillis());
}
/**
* 正则匹配是否为数字
*/
private static String regex = "^[0-9]*$";
public static String handleStr(String source) {
// 参数字符长度
int len = source.length();
if (1 < len) {
// 比对长度
int size = 1;
// 如果对比长度大于字符长度的一半,那不需要比较,已经没有重复了
while (size <= (len / 2)) {
// 执行比较
source = handleStr(source, size);
// 比较字符的长度递增,直到不能比较
size ++;
// source字符串的长度会变小
len = source.length();
}
}
return source;
}
public static String handleStr(String source, int size) {
int start = 0;
int end = start + size;
;
// 如果截止位置大于字符长度则退出,即比较完就退出
while ((end + size) <= source.length()) {
// 对比
String startSub = source.substring(start, end);
String endSub = source.substring(end, end + size);
if (!startSub.matches(regex) && !endSub.matches(regex)
&& !startSub.contains("谢") // 类似谢谢、嘻嘻、哈哈等之类的词语需要特殊处理
&& startSub.equals(endSub)) {
// 除了数字,有相同字符,去掉其中一个
source = source.substring(0, end) + source.substring(end + size);
} else {
// 没有相同字符则继续
start ++;
}
// 设置下一个截止位置
end = start + size;
}
return source;
}