TsinghuaOj Programming Assignment #3.3 重名剔除(Deduplicate)

3 篇文章 0 订阅
1 篇文章 0 订阅

重名剔除(Deduplicate)

描述
Epicure先生正在编撰一本美食百科全书。为此,他已从众多的同好者那里搜集到了一份冗长的美食提名清单。既然源自多人之手,其中自然不乏重复的提名,故必须予以筛除。Epicure先生因此登门求助,并认定此事对你而言不过是“一碟小菜”,相信你不会错过在美食界扬名立万的这一良机

输入
第1行为1个整数n,表示提名清单的长度。以下n行各为一项提名

输出
所有出现重复的提名(多次重复的仅输出一次),且以其在原清单中首次出现重复(即第二次出现)的位置为序

样例
输入

10
brioche
camembert
cappelletti
savarin
cheddar
cappelletti
tortellni
croissant
brioche
mapotoufu
输出

cappelletti
brioche

限制
1 < n < 6 * 10^5

提名均由小写字母组成,不含其它字符,且每项长度不超过40

时间:2 sec

空间:256 MB

提示
散列

分析

  1. 如何将字符串映射到槽位上?推荐的方法是把26个字母(题目是小写字母)当作27进制来计算得出散列码,以表示每一个字符串独一无二的数值,理论上60w个不重复的菜名是可以一一对应地放入60w个槽位的。然而遗憾的是40位长的字符串,如果以27进制来计算其值,势必大大超过长整型无符号数的表示范围。(来小小验证一下,41^{27} - 1 > 2^{5*27} - 1 > 2^{65} - 1)因此处理好冲突是关键。
  2. 根据散列码进行哈希映射,由于重点不在此,哈希函数就随便写啦,最简单的方式就是模散列表长度,hash(x) = x % MAXSLOTS即可。我们的重心放在处理冲突。MAXSLOTS的取值有讲究,下面来说。
  3. 采用双平方探测法可以完美解决冲突,在空间上我们仅需要60w个槽位,MAXSLOTS取模4余3的素数即可。(数学证明参见费马定理)不妨取600011。
  4. 码就完事儿。

流程

  1. 获取字符串(关键码),计算散列码,使用散列码计算哈希值。
  2. 尝试放入槽位。如果有冲突&&槽位关键码与当前串相同&&该关键码也未打印过,转3。如果有冲突&&关键码相同&&打印过,转1。如果有冲突&&关键码不同,转4。如果没有冲突,转5。
  3. 打印当前字符串,标记槽位为已打印。转1。
  4. 进行双平方试探,转2。
  5. 字符串放入槽位,标记为未打印,转1。

核心代码

unsigned int hashCode( struct hash_string s ){ // 计算字符串散列码的近似解法,左移5位是实验统计的结果
	unsigned int h = 0;
	for ( int n = strlen(s),i = 0; i < n; i++ ){
		h = ( h << 5 ) | ( h >> 27 );
		h += (unsigned int) s.name[i];
	}
	return h;
}

unsigned int hash( unsigned int x ){
	return x % M;
}

伪代码

Input : str
	des = calculate hash code of str
	if slot[des] is empty:
		put str in slot
	else slot[des] is full:
		probe slots:
			if slot is full and the str has been printed:
				retun
			else if slot is full but the str has not been printed:
				print the str
			else if slot is full but not the str:
				go on probe
			else:
				empty slot! put the str in 

在这里插入图片描述
上榜了嘻嘻嘻

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值