正则表达式实现除去重复的单词

起因:还是动态生成图表时的问题,因为字段是动态设定的,可以在多个轴、序列中设置字段,这就很有可能会存在字段的重复问题。重复的字段生成Sql并执行是没有问题的,但执行的结果,生成List(执行Hibernate的sqlquery.setResultTransformer(Transformers.ALIAS_TO_ENTITY_MAP).list())时就会有问题了(抛出异常)。所以就要除去查询sql字段中的重复字段。

首先想到的是把字符串分隔成数组,再添加到set中,再用Set中的字段名重新生成不重复的字段名字符串。

代码是这样的:

		String s = "D_NAME,COMPANYID,COMPANY_NAME,PARENT_ID,ID,COMPANYID,COMPANY_NAME,DF_UNIFIED_CODE,DF_CLEARANCE_TAG_ID,";

		String[] s1 = s.split(",");
		Set set = new HashSet();
		for(String ss : s1){
			set.add(ss);
		}
		Iterator iter = set.iterator();
		String newStr = "";
		while(iter.hasNext()){
			newStr += iter.next();
		}

结果显示,重复的字段并没有去掉。

set.add(ss);改为

			if(!set.contains(ss))
				set.add(ss);

结果依旧。

我不知道java是集合是怎么处理字符串的。请教java老手,说理论上Set中应该是不会重复的,但对出现这样的结果,也没有有效的解决办法。哪位大虾能告诉我这是怎么回事呀?

然后我就想到使用正则表达式来实现除去字符串的重复字段名。

第一个表达式:

(\b[\w|_]+\b,?)(.*)\1(.*),代码为:

		String s = "LOWVOLTAGE_LOSS_RATE,YEARMONTH,LOWVOLTAGE_LOSS_RATE,NAME,YEARMONTH,PPQ,PPQ,SPQ,PPQ,PPQ,SPQ,CODE,LOWVOLTAGE_LOSS_RATE";
		Pattern p = Pattern.compile("(\\b[\\w|_]+\\b,?)(.*)\\1(.*)");
		Matcher matcher = p.matcher(s);
		
		while(matcher.find()){
			s = matcher.replaceAll("$1$2$3");
			System.out.println(s);
			matcher = p.matcher(s);
		}
		if(s.endsWith(","))
			s = s.substring(0,s.length()-1);

		String expect = "LOWVOLTAGE_LOSS_RATE,YEARMONTH,NAME,PPQ,SPQ,CODE";
		Assert.assertEquals(expect, s.substring(0,s.length()-1));

验证结果为预期结果。

本来以为到这里就已经结束了,可系统刚运行了一会,就报出了错误,跟踪发现,当要处理的字符串为:

"D_NAME,COMPANYID,COMPANY_NAME,PARENT_ID,ID,COMPANYID,COMPANY_NAME,DF_UNIFIED_CODE,DF_CLEARANCE_TAG_ID,"时,执行的结果会把“DF_CLEARANCE_TAG_ID”替换成“DF_CLEARANCE_TAG_”,这可不是我要的结果!

经改进后的正则表达式为:(\b[\w|_]+\b,?)(.*)\b\1\b (.*),再次测试,结果完全满足要求。







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值