基于 Needleman-Wunsch 算法的文本相关性计算

// 计算字符串(数组)A和B(数组)的相关性:
        static float Correlation(List<string> A, List<string> B)
        {
            List<string> lcs = NeedlemanWunsch(A, B);// 调用Needleman-Wunsch算法子函数
            float x = (float)lcs.Count;
            float corA = x / (float)A.Count;
            float corB = x / (float)B.Count;
            return (corA * corB);
        }

        static List<String> CreateStringList(string s)
        {
            List<String> lst = new List<string>();
            string[] arr = s.Split(Separators, StringSplitOptions.RemoveEmptyEntries);
            for (int i = 0; i < arr.Length; ++i)
                lst.Add(arr[i]);
            return lst;
        }

        // 采用Needleman-Wunsch算法计算字符串A和B的最长公共子序列
        static List<string> NeedlemanWunsch(List<string> A, List<string> B)
        {
            int M = A.Count;
            int N = B.Count;
            List<string>[,] T = new List<string>[M + 1, N + 1];
            for (int i = 0; i <= M; ++i)
            {
                T[i, 0] = new List<string>();
            }
            for (int j = 1; j <= N; ++j)
            {
                T[0, j] = new List<string>();
            }
            for (int k = 1; k <= Math.Max(M, N); ++k)
            {
                if (k <= M)
                {
                    // 计算 T[k,*]
                    for (int n = Math.Min(k, N); n <= N; ++n)
                    {
                        if(T[k, n] == null)
                            T[k, n] = LCS(A[k - 1], B[n - 1], T[k, n - 1], T[k - 1, n], T[k - 1, n - 1]);
                    }
                }
                if (k <= N)
                {
                    // 计算 T[*,k]
                    for (int m = Math.Min(k, M); m <= M; ++m)
                    {
                        if(T[m, k] == null)
                            T[m, k] = LCS(A[m - 1], B[k - 1], T[m, k - 1], T[m - 1, k], T[m - 1, k - 1]);
                    }
                }
            }
            System.Diagnostics.Debug.Assert(T[M, N].Count <= Math.Max(A.Count, B.Count));
            return T[M, N];
        }

        // 计算单步LCS (如何处理长度相等的情况?)
        static List<string> LCS(string a, string b, List<string> s1, List<string> s2, List<string> s3)
        {
            List<string> lcs = null;

            if (s1.Count > s2.Count)
                lcs = s1;
            else
                lcs = s2;

            if (a != b)
            {
                if (s3.Count > lcs.Count)
                    lcs = new List<string>(s3); // 拷贝而非引用
                else
                    lcs = new List<string>(lcs); // 拷贝而非引用
            }
            else
            {
                if (s3.Count + 1 > lcs.Count)
                {
                    lcs = new List<string>(s3); // 拷贝而非引用
                    lcs.Insert(lcs.Count, a);
                }
                else
                    lcs = new List<string>(lcs); // 拷贝而非引用
            }

            return lcs;
        }

        static char[] Separators = new char[] { ',', '~', '!', '@', '$', '%', '^', '&', '*', '(', ')', '_', '-',
                                                 '+', '=', '{', '}', '[', ']', '|', '//', ':', ';', '/"', '/'',
                                                 '<', '>', ',', '.', '?', '/', '/t', '/n', '/r', '`', '#', ' '};

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Needleman-Wunsch算法是一种用于比对两条生物序列(如DNA或蛋白质序列)的算法。它采用了动态规划的思想,通过构建一个二维矩阵来计算两条序列之间的最佳比对方式。它可以计算出两条序列之间的最高相似度,并用这个相似度来推断进化关系。 ### 回答2: Needleman-Wunsch算法是一种经典的序列比对算法,被广泛应用于生物信息学领域和DNA/RNA/蛋白质序列的比对工作中。该算法的核心思想是通过动态规划的方法,找到两个序列之间的最佳比对方案。 算法的步骤如下: 1. 初始化一个二维矩阵,大小为两个序列长度加1。矩阵的第一行和第一列分别对应两个序列的每个字符。 2. 初始化第一行和第一列,即给每个元素赋予相应的惩罚分数。一般来说,匹配得分为正,不匹配和缺失的得分为负。 3. 根据相应的匹配规则,计算每个矩阵元素的得分。矩阵中的每个元素都表示该位置匹配到的最佳得分。 4. 通过回溯的方式,根据得分矩阵确定最佳比对方案。从得分矩阵的右下角开始,根据当前位置的得分和其周围位置的得分,决定向上、向左还是左上方向移动。 5. 根据比对方案,生成最佳比对序列。 Needleman-Wunsch算法具有以下特点: 1. 能够找到两个序列之间的全局最佳比对方案,即找到最大得分的比对方式。 2. 能够处理序列长度不等的情况,能够对缺失或插入的位置进行补全。 3. 对于大规模的序列比对,算法的时间复杂度较高,需要额外的计算资源。 4. 算法中的得分矩阵可以用于表示序列的相似性或差异性。 Needleman-Wunsch算法的应用广泛,例如在基因组学研究中,可以比对不同物种的基因组序列,寻找共同的基因功能区域。在药物设计中,可以比对蛋白质序列,寻找同源蛋白质并预测其结构和功能。此外,该算法还可以应用于DNA测序中,对测序结果进行比对和校正。 总之,Needleman-Wunsch算法是一种有效的序列比对算法,在生物信息学和相关领域具有重要的应用价值。 ### 回答3: Needleman-Wunsch算法是一种常见的序列比对算法,用于比较两个序列之间的相似性。它是由Saul Needleman和Christian Wunsch于1970年提出的,是一种全局比对算法,适用于字符串、蛋白质序列或DNA序列的比对。 需要进行比对的两个序列被放置在一个二维的矩阵中。算法根据预先定义的匹配得分、替换得分和惩罚值,计算出每个位置的得分。在计算的过程中,需要考虑序列间插入或删除字符的成本。 算法的具体步骤如下: 1. 初始化一个空的二维矩阵,矩阵的大小是两个序列的长度加一。 2. 在矩阵的边缘填充惩罚值。 3. 从矩阵的左上角开始,计算每个位置的得分。得分是根据上方、左方和左上方的得分和匹配情况计算的。 4. 根据得分确定最佳的替换、匹配或删除操作,并将对应的字符插入到比对结果中。 5. 重复步骤3和4,直到到达矩阵的右下角。 6. 根据得分矩阵构建最佳比对结果。 Needleman-Wunsch算法的时间复杂度为O(n^2),其中n是序列的长度。它可以找到两个序列之间的最佳比对结果,但可能会受限于较长序列的内存需求。虽然算法计算量较大,但由于它的准确性和全局比对的能力,在生物信息学领域得到广泛应用,例如蛋白质结构的比对和进化树的构建等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值