这个问题是我在leetcode上刷题遇到的,用HashSet存放string对象,结果值完全相同的string对象也存放进去了!我debug一看,原来是hashcode不同。当时我一度以为是我字符串拼接的方式不对(的确也是),结果试了好久也没发现问题~
先上leetcode翻译原题
929. Unique Email Addresses
每封电子邮件都包含本地名称和域名,以@符号分隔。例如,在alice@leetcode.com中,alice是本地名称,leetcode.com是域名。除了小写字母,这些电子邮件可能包含'。'或'+'。如果在电子邮件地址的本地名称部分中的某些字符之间添加句点('。'),则在那里发送的邮件将转发到本地名称中没有点的同一地址。例如,“alice.z@leetcode.com”和“alicez@leetcode.com”转发到同一个电子邮件地址。(请注意,此规则不适用于域名。)如果在本地名称中添加加号('+'),则会忽略第一个加号后面的所有内容。这允许过滤某些电子邮件,例如m.y+name@email.com将转发到my@email.com。(同样,此规则不适用于域名。)可以同时使用这两个规则。给定电子邮件列表,我们会向列表中的每个地址发送一封电子邮件。有多少不同的地址实际接收邮件?
Input: ["test.email+alex@leetcode.com","test.e.mail+bob.cathy@leetcode.com","testemail+david@lee.tcode.com"] Output: 2 Explanation: "testemail@leetcode.com" and "testemail@lee.tcode.com" actually receive mailsNote:
1 <= emails[i].length <= 100
1 <= emails.length <= 100
- Each
emails[i]
contains exactly one'@'
character.
AC代码
public int numUniqueEmails(String[] emails) {
Set<String> set = new HashSet<>();
for (String email : emails) {
String[] session = email.split("@");
String local = session[0].substring(0, session[0].contains("+") ? session[0].indexOf("+") : session[0].length());
// local = local.replaceAll(".", "");
// 使用长度不同的char数组构造string的hashcode会不同
// char[] chs = new char[local.length()];
// int p = 0;
StringBuilder b = new StringBuilder();
for (char c : local.toCharArray())
if (c != '.') {
b.append(c);
}
String ss = b.toString() + "@" + session[1];
set.add(ss);
}
return set.size();
}
直到几天后我再看代码时,发现我用char[]存放‘@’字符前面的过滤‘.‘之后的字符串是变长的,然后我赶紧看了一下String使用char数组构造字符串对象方法和hashcode()的源码。发现String底层还是操作char数组的,构造string对象的时候会原封不动的将char数组复制过去。返回哈希码时,是计算每一位字符的ascll码再乘31。我在传入char数组时,由于长度不同,默认ascll码虽然是0,但多乘了31,所以得到了不同的hashcode!!
于是我换成stringbuilder之后,问题解决。