在实现论文《Automatically Generating Models for Botnet Detection》论文的算法中,用到了一个The longest commom subsequence algorithm算法,就是最长公共子序列LCS问题。求两个字符串的最长公共子串,这个子串不要求在两个字符串中连续,但是要有序。
个人感觉写的比较好的博客:http://blog.chinaunix.net/uid-26548237-id-3374211.html
算法如下:
1、序列str1和序列str2
·长度分别为m和n;
·创建1个二维数组L[m.n];
·初始化L数组内容为0
·m和n分别从0开始,m++,n++循环:
- 如果str1[m] == str2[n],则L[m,n] = L[m - 1, n -1] + 1;
- 如果str1[m] != str2[n],则L[m,n] = max{L[m,n - 1],L[m - 1, n]}
·最后在L[m,n]中的数字一定是最大的,且这个数字就是最长公共子序列的长度
·从数组L中找出一个最长的公共子序列
2、从数组L中查找一个最长的公共子序列
i和j分别从m,n开始,递减循环直到i = 0,j = 0。其中,m和n分别为两个串的长度。
·如果str1[i] == str2[j],则将str[i]字符插入到子序列内,i--,j--;
·如果str1[i] != str[j],则比较L[i,j-1]与L[i-1,j],L[i,j-1]大,则j--,否则i--;(如果相等,则任选一个)
python实现:http://blog.csdn.net/littlethunder/article/details/25637173