Trie树
时间限制: 1 Sec 内存限制: 128 MB
提交: 195 解决: 46
[提交] [状态] [讨论版] [命题人:admin]
题目描述
字母(Trie)树是一个表示一个字符串集合中所有字符串的前缀的数据结构,其有如下特征:
1.树的每一条边表示字母表中的一个字母
2.树根表示一个空的前缀
3.树上所有其他的节点都表示一个非空前缀,每一个节点表示的前缀为树
根到该节点的路径上所有字母依次连接而成的字符串。
4.一个节点的所有出边(节点到儿子节点的边)中不存在重复的字母。
现在Matej手上有N个英文小写字母组成的单词,他想知道,如果将这N个单词中的字母分别进行重新排列,形成的字母树的节点数最少是多少。
输入
第一行包含一个正整数N(1<=N<=16)
接下来N行每行一个单词,每个单词都由小写字母组成。
单词的总长度不超过1,000,000。
输出
输出仅一个正整数表示N个单词经过重新排列后,字母树的最少节点数。
样例输入
3
a
ab
abc
样例输出
4
此题题目是trie,但是和trie没有什么太大关系,只需要知道,对于这些串,将他们的公共部分作为公共前缀是最优的即可。
那么首先考虑两个串,答案显然是他们的长度和减去公共部分。
那么再考虑三个串,显然可能出现两两的公共部分大于三个的公共部分的情况,这种时候trie树必然会出现分叉,我们需要考虑如何分叉,分成二叉或三叉,再者哪些串在同一子树上,既然一定会分成多颗子树,那么我们可以直接将这三个串拆成两个子集,先求出两个子集的最优解,然后减去公共部分即可。
也就是说,令F[S]F[S]表示将SS集合中的字符串弄到一棵树上的最少节点数,那么有
F[S]=minF[k]+F[S xor k]−S中字符串的公共部分长度F[S]=minF[k]+F[S xor k]−S中字符串的公共部分长度
然后考虑dp[i] == sum的时候,说明此时的所有选择的串都相同,也就不存在需要减去的情况,故只有当dp[i] > sum时,才需要dp[i]-sum。
最后需要结果+1.字典树的根节点是空值。收获:高效枚举子状态for(int j=i&i-1;j;j=i&j-1)
PS 一般 n<16是用状压DP的条件
设S表示一个01状态集,那么它的所有非空子集x可以通过以下代码枚举。
for (int x = S; x; x = (x-1)&S)
x = (x-1)&S实际上是把S中的0全部忽略,并不断减1的结果,比如S=1011,则x分别为:1011, 1010, 1001, 1000, 0011, 0010, 0001。忽略S中第二位的0其实就是111, 110, 101, 100, 011, 010, 001。
称S中的1所在位为有效位,0所在位为无效位,则x中的无效位必为0,有效位为0或1,比如S=1011,x=1001(有效位加下划线)。-1就是加上-1补码1111…,可以想成把无效位的1先加上去,比如x=1001变成1101,再加有效位的1。由于无效位加完肯定是1,会把有效位的进位“传递”下去,然后再位与S使得无效位变成0,实际就相当于有效位加上1111…,也就是有效位-1。
#include <cstdio>
#include <cstdlib>
#include <cstring>
#include <algorithm>
#include <functional>
#include <iostream>
#include <map>
#include <vector>
#include<stack>
#include<numeric>
#define INF 0x3f3f3f3f
using namespace std;
int vis[20][30],len[30],ans[30];
char s[100005];
int dp[1<<16+5];
int n;
int main()
{
memset(vis,0,sizeof(vis));
scanf("%d",&n);
for(int i=0; i<n; i++)
{
scanf("%s",s);
len[i]=strlen(s);
for(int j=0; j<len[i]; j++) //记录第i串,每个单词出现的次数
vis[i][s[j]-'a']++;
}
for(int i=0;i<(1<<n);i++)//枚举所有状态
{
dp[i]=0;
memset(ans,INF,sizeof(ans));
for(int j=0;j<n;j++)//枚举i内所有单词
{
if(i&(1<<j))
{
for(int k=0;k<26;k++)
{
dp[i]+=vis[j][k];//记录i集合内所有字母的数量。
ans[k]=min(ans[k],vis[j][k]);//记录每个单词最小的出现数,如果最后不是0,则该字母重复可以作为公共前缀。
}
}
}
int sum=0;
for(int j=0;j<26;j++)sum+=ans[j];//所有单词公共前缀的数量。
for(int j=i;j;j=i&(j-1))//高效枚举i的子集
dp[i]=min(dp[i],dp[j]+dp[i^j]);//j是i的子集,j^i是j的补集,这两种状态可以去掉公共前缀。
if(dp[i]>sum)dp[i]-=sum;
}
printf("%d\n",dp[(1<<n)-1]+1);//最后需要结果+1.字典树的根节点是空值
return 0;
}