2009年12月_deepfuture

原创遗传信息流

蛋白质的三维结构是高度可变的。　　组合在一起形成一个大结构的蛋白质基团。RNA聚合酶就是这样一种蛋白质复合体，它是通过将ＤＮＡ碱基序列拷贝到较短的ＲＮＡ碱基序列，而启动转录一个基因，得到的ＤＮＡ序列称为信使ＲＮＡ。这个短分子被一个称为核糖体的大分子复合体捕获，读出连续的密码子，并将相应的氨基酸定位在生长着的多肽链上。　　遗传信息流：　　ＤＮＡ－>转录->ＲＮＡ－>翻译－>蛋白质

2009-12-31 20:18:00 3270

遗传信息流

蛋白质的三维结构是高度可变的。　　组合在一起形成一个大结构的蛋白质基团。RNA聚合酶就是这样一种蛋白质复合体，它是通过将ＤＮＡ碱基序列拷贝到较短的ＲＮＡ碱基序列，而启动转录一个基因，得到的ＤＮＡ序列称为信使ＲＮＡ。这个短分子被一个称为核糖体的大分子复合体捕获，读出连续的密码子，并将相应的氨基酸定位在生长着的多肽链上。　　遗传信息流：　　ＤＮＡ－>转录->ＲＮＡ－>翻译...

2009-12-31 20:18:00 289

原创检测DNA

一、1、杂交过程将2个互补的DNA链结合成单个的双链分子。2、探针一个长度为20-30的核苷酸的单链DNA片段，其序列已知具有荧光标记。3、探针与未知DNA片段杂交后，就可知，在这个大的DNA片段中是否存在与探针互补的序列。二、变性是通过加热含有DNA的溶液直到双链分开三、1979年Riggs及Comings都提出用某一段已知的DNA作为探针，称为互补DNA（c

2009-12-31 20:16:00 805

检测DNA

一、1、杂交过程将2个互补的DNA链结合成单个的双链分子。2、探针一个长度为20-30的核苷酸的单链DN段，其序列已知具有荧光标记。3、探针与未知DN段杂交后，就可知，在这个大的DN段中是否存在与探针互补的序列。二、变性是通过加热含有DNA的溶液直到双链分开三、1979年Riggs及Comings都提出用某一段已知的DNA作为探针，称为互补DNA（complementD...

2009-12-31 20:16:00 143

原创 DNA序列剖面

1、在随机生成的7个长为32个核苷酸的DNA序列中，在每个DNA序列中的随机位点插入相同的序列，长度为8的模式P=ATGCAACT，你不知道模式P是怎样的序列，或者不知道在每条序列中它插入在哪里，DNA允许这个模式P在某些核苷酸位点上出现突变，突变后形成不完全相同的7个模式。要求：通过对DNA序列的分析重构模式P。2、算法：考虑一组t条DNA序列，每条序列中含有n个核苷酸。在这

2009-12-31 20:15:00 654

DNA序列剖面

1、在随机生成的7个长为32个核苷酸的DNA序列中，在每个DNA序列中的随机位点插入相同的序列，长度为8的模式P=ATGCAACT，你不知道模式P是怎样的序列，或者不知道在每条序列中它插入在哪里，DNA允许这个模式P在某些核苷酸位点上出现突变，突变后形成不完全相同的7个模式。要求：通过对DNA序列的分析重构模式P。2、算法：考虑一组t条DNA序列，每条序列中含有n个核苷酸。在这t条序列中，...

2009-12-31 20:15:00 106

原创基序发现问题和中间字符串问题

1、如果P(s)表示对应于起始位点s的剖面矩阵，我们用MP(s)(j)来表示P（s）第j列中的最大计数。定义共有序列得分Score(s,DNA)为： l∑ MP(s)(j)，可用来度量起始点为s的序列谱的强度。j=12、给定一组DNA序列，从每条序列中发现一组L元组片段，使得共有序列得分为最大。输入：一个t*n阶的DNA矩阵，以及试图发现的模式的长度L输出：含t个起始位点的数组S=(S

2009-12-31 20:14:00 584

基序发现问题和中间字符串问题

1、如果P(s)表示对应于起始位点s的剖面矩阵，我们用MP(s)(j)来表示P（s）第j列中的最大计数。定义共有序列得分Score(s,DNA)为：l∑ MP(s)(j)，可用来度量起始点为s的序列谱的强度。j=12、给定一组DNA序列，从每条序列中发现一组L元组片段，使得共有序列得分为最大。输入：一个t*n阶的DNA矩阵，以及试图发现的模式的长度L输出：含t个起始位点的数组S=(S1...

2009-12-31 20:14:00 99

原创分支界定法

1、如果一个顶点的所有后代中没有一个顶点的得分会优于已经探测到的最优叶子的得分。2、在每个顶点处，我们计算一个边界－以那个顶点为根顶点的子树中所有叶子的最大范围内的最优得分－然后决定是否考虑其子顶点。

2009-12-31 20:12:00 922

原创基序发现问题和中间字符串问题检索树

1、在一个由k个字母组成的字母表中考虑所有k^l个L-元组片段。对于基序发现问题而言k=n-l+1，而对于中间字符串而言则k=4。2、ALLLEAVES给定一条L-元组片段，输出所有4元组片段。NEXTLEAF(a,L,k) FOR I IF aik aiai+1 return a ai return aALLLEAVE

2009-12-31 20:12:00 535

分支界定法

1、如果一个顶点的所有后代中没有一个顶点的得分会优于已经探测到的最优叶子的得分。2、在每个顶点处，我们计算一个边界－以那个顶点为根顶点的子树中所有叶子的最大范围内的最优得分－然后决定是否考虑其子顶点。...

2009-12-31 20:12:00 169

基序发现问题和中间字符串问题检索树

1、在一个由k个字母组成的字母表中考虑所有k^l个L-元组片段。对于基序发现问题而言k=n-l+1，而对于中间字符串而言则k=4。2、ALLLEAVES给定一条L-元组片段，输出所有4元组片段。NEXTLEAF(a,L,k)FOR I<-l TO 1IF ai<kai<-ai+1return aai<-1return aALLLEAV...

2009-12-31 20:12:00 108

原创分支定界策略发现中间字符串

1、假定核苷酸A,C,G,T被编码成数字(1,2,3,4)，在该树第i层中一个顶点表示一个长度为i的核苷酸字符串2、TOTALDISTANCE(v,NDA)表示一个给定的字符串動画与DNA中任意一组起始位点之间的汉明距离之和可能取到的最小值。3、算法BRANCHANDBOUNDMEDIANSEARCH(DNA,t,n,l) s bestDistance i wh

2009-12-31 20:11:00 455

原创分支界定发现基序问题

1、有一部分起始位点在没对其进行迭代前，可根据它们得分的最优估计，简单而迅速地将它们排除在外。如：若t个起始位点中的前i个位点[即：(s1,s2,...,si）]构成了一个弱序列谱，没必要考虑序列i+1,i+2,....,t中的任一起始位点。2、给定一组起始位点s=(s1,s2,..,st),定义部分一致得分Score(s,i,DNA)为i*l阶联矩阵的一致得分，且该矩阵仅涉及与起始位点S

2009-12-31 20:11:00 577

分支定界策略发现中间字符串

1、假定核苷酸A,C,G,T被编码成数字(1,2,3,4)，在该树第i层中一个顶点表示一个长度为i的核苷酸字符串2、TOTALDISTANCE(v,NDA)表示一个给定的字符串動画与DNA中任意一组起始位点之间的汉明距离之和可能取到的最小值。3、算法BRANCHANDBOUNDMEDIANSEARCH(DNA,t,n,l)s<-(1,1,...,1)bestDistanc...

2009-12-31 20:11:00 99

分支界定发现基序问题

1、有一部分起始位点在没对其进行迭代前，可根据它们得分的最优估计，简单而迅速地将它们排除在外。如：若t个起始位点中的前i个位点[即：(s1,s2,...,si）]构成了一个弱序列谱，没必要考虑序列i+1,i+2,....,t中的任一起始位点。2、给定一组起始位点s=(s1,s2,..,st),定义部分一致得分Score(s,i,DNA)为i*l阶联矩阵的一致得分，且该矩阵仅涉及与起始位点S...

2009-12-31 20:11:00 203

原创反序排序

1、基因组中基因的次序可用一个排序π=π1π2...πn表示。2、反序作用是倒换同线性块π1πi+1...πj-1πj 的次序实际上，反序ρ(i,j)将π1。。。πi-1 πiπi+1...πj-1πj πj+1。。。πn变换成 π1。。。πi-1 πjπj-1 ...πi+1πi πj+1。。。πn3、反序距离问题给定两个排列，寻找一个最短的反序序列使得它们能将一

2009-12-31 20:10:00 659

反序排序

1、基因组中基因的次序可用一个排序π=π1π2...πn表示。2、反序作用是倒换同线性块π1πi+1...πj-1πj 的次序实际上，反序ρ(i,j)将π1。。。πi-1 πiπi+1...πj-1πj πj+1。。。πn变换成π1。。。πi-1 πjπj-1 ...πi+1πi πj+1。。。πn3、反序距离问题给定两个排列，寻找一个最短的反序序列使得它们能将一个...

2009-12-31 20:10:00 173

原创正则表达式几个易混的地方

1、.符.在[]外表示任何一个字符，在[]内就表示本意。如：x.y表示第一个字符是X，第二个是任何字符,第三个字符是y而x[.y]表示第一个字符是X，第二个是.,第三个字符是y2、^符^在[]外表示该行以某某开头，在[]内表示不含这个符号如:^y表示以y开头z[^y]表示第一个字符是z，第二个字符非y3、-符如:[1-5]表示1-5的数字[-15

2009-12-31 19:41:00 303

正则表达式几个易混的地方

1、.符.在[]外表示任何一个字符，在[]内就表示本意。如：x.y表示第一个字符是X，第二个是任何字符,第三个字符是y而x[.y]表示第一个字符是X，第二个是.,第三个字符是y2、^符^在[]外表示该行以某某开头，在[]内表示不含这个符号如:^y表示以y开头z[^y]表示第一个字符是z，第二个字符非y3、-符如:[1-5]表示1-5的数字[-15...

2009-12-31 19:41:00 49

原创找到与M美分找头相应的最小硬币数

试图找到与M美分找头相应的最小硬币数。DPCHANGE(M,c,d) bestNumCoins0 for m bestNumCoinsm fori if m>=Ci if bestNumCoinsm-Ci+1bestNumCoinsm bestNumCoinsm m-Ci+1 return b

2009-12-30 21:11:00 363

找到与M美分找头相应的最小硬币数

试图找到与M美分找头相应的最小硬币数。DPCHANGE(M,c,d)bestNumCoins0<-0for m<-1 toMbestNumCoinsm<-∞fori<-1 to dif m>=Ciif bestNumCoinsm-Ci+1<bestNumCoinsmbestNumCoinsm <-bestNumCoinsm-...

2009-12-30 21:11:00 83

原创曼哈顿游客问题

在加权网格中寻找一条最长的路线。输入：有源点和汇点的加权网络G输出：G中从源点到汇点的一条最长的路线。在网络中只能向右或向下移动。 MATHATTANTOURIST(Wdown,Wright,n,m) S0,0 for i Si,0S i-1,0+Wdowni,0 for j S0,jS0,j-1+Wrighti,j for i

2009-12-30 21:09:00 1262

曼哈顿游客问题

在加权网格中寻找一条最长的路线。输入：有源点和汇点的加权网络G输出：G中从源点到汇点的一条最长的路线。在网络中只能向右或向下移动。MATHATTANTOURIST(Wdown,Wright,n,m)S0,0<-0for i<-1 to nSi,0<-S i-1,0+Wdowni,0for j<-1 tomS0,j<-S0,j-1+W...

2009-12-30 21:09:00 173

DAG有向无环图

1、DAG中的最长路线用动态规划解决。2、DAG问题中的最长路线寻找赋权的DAG中两个顶点间的最长路线输入：有源点和汇点的赋权DAG。输出：G中从源点到汇点的一条最长的路线3、顶点V的分数Sv定义如下：Sv=max(Su+从u到v的边的权重)u∈Predecessors(v)Predecessors(v)是v的所有前导顶点u的集合...

2009-12-30 20:55:00 164

原创全局序列联配

注意不是最长子序列LCS，LCS问题对应于匹配则奖励1，插缺则没有惩罚。如果要对插缺进行统计分析，则属于序列联配问题，最佳序列联配求出的并不是最长子序列对有K个字母的字符集A进行扩展，加入缺口符号－，并提出得分矩阵为(k+1)＊(k+1)矩阵，将联配中的列(x,y)记为δ(x,y)，将联配的得分定义为所有列得分之和。联配中列的概念是：假设V＝ATG，W＝A－G，则每列分别定义为：（0，

2009-12-30 20:47:00 902

1、定义成将一个字符串变换成另一个字符串需要的最小的编辑操作数目，这里的操作是指插入一个字符、删除一个字符、将一个字符替换成另一个字符。2、AT－GTTAT－表示对应于V＝ATGTTAT的行，而ATCGT－A－C表示对应于W＝ATCGTAC的行，一个有散布的空格字符（用－表示）的字符串。另一种方法是用122345677表示AT－GTTAT－，表示V中字符出现在一个给定位置上的编号。W用123455

2009-12-30 20:47:00 589

全局序列联配

注意不是最长子序列LCS，LCS问题对应于匹配则奖励1，插缺则没有惩罚。如果要对插缺进行统计分析，则属于序列联配问题，最佳序列联配求出的并不是最长子序列对有K个字母的字符集A进行扩展，加入缺口符号－，并提出得分矩阵为(k+1)＊(k+1)矩阵，将联配中的列(x,y)记为δ(x,y)，将联配的得分定义为所有列得分之和。联配中列的概念是：假设V＝ATG，W＝A－G，则每列分别定义为：（0，...

2009-12-30 20:47:00 148

最长共同子序列（LCS）的动态规划算法

1、定义成将一个字符串变换成另一个字符串需要的最小的编辑操作数目，这里的操作是指插入一个字符、删除一个字符、将一个字符替换成另一个字符。2、AT－GTTAT－表示对应于V＝ATGTTAT的行，而ATCGT－A－C表示对应于W＝ATCGTAC的行，一个有散布的空格字符（用－表示）的字符串。另一种方法是用122345677表示AT－GTTAT－，表示V中字符出现在一个给定位置上的编号。W用123455...

2009-12-30 20:47:00 121

原创 PAM矩阵-可接受点突变得分矩阵

2009-12-30 20:46:00 2940

PAM矩阵-可接受点突变得分矩阵

2009-12-30 20:46:00 804

原创同源异型框与局部联配

同源异型框基因是在大多数物种中存在的调节胚胎发育的基因，尽管同源异型框基因工程在不同特种中有很大差异，但它们中有一个称为同源异型域外的区域非常保守，如果找到这个保守区域并忽略其它相似性很低的区域，提出了局部联配问题局部联配问题：在2个字符串中寻找最佳局部联配。输入：字符串V与W及得分矩阵 δ 输出：下述条件的V与W的子字符串：在 δ下的全局联配得分是V与W的所有子字符串的

2009-12-30 20:45:00 489

同源异型框与局部联配

同源异型框基因是在大多数物种中存在的调节胚胎发育的基因，尽管同源异型框基因工程在不同特种中有很大差异，但它们中有一个称为同源异型域外的区域非常保守，如果找到这个保守区域并忽略其它相似性很低的区域，提出了局部联配问题局部联配问题：在2个字符串中寻找最佳局部联配。输入：字符串V与W及得分矩阵 δ输出：下述条件的V与W的子字符串：在 δ下的全局联配得分是V与W的所有子字符串的全局联配得分为最大者。通过在...

2009-12-30 20:45:00 79

原创缺口罚分联配

2009-12-30 20:37:00 1622

缺口罚分联配

2009-12-30 20:37:00 176

原创外显子链接问题

人类大部分基因组序列都是被垃圾DNA序列分隔成一段段，给定一个已知的目标蛋白质和基因组序列，在该基因组序列中找出一组子字符串（候选外显子），使得其拼接（剪接）与目标蛋白质最匹配（即去掉垃圾DNA序列）。一个强力方法是寻找基因组序列与目标蛋白质序列间的所有局部相似性。若第一个取自基因组序列的子字符串展示了充分相似性于目标蛋白质，那么这个子字符串可被认为是一个推定的外显子。将推定外显子结构化为基

2009-12-30 19:51:00 742

外显子链接问题

人类大部分基因组序列都是被垃圾DNA序列分隔成一段段，给定一个已知的目标蛋白质和基因组序列，在该基因组序列中找出一组子字符串（候选外显子），使得其拼接（剪接）与目标蛋白质最匹配（即去掉垃圾DNA序列）。一个强力方法是寻找基因组序列与目标蛋白质序列间的所有局部相似性。若第一个取自基因组序列的子字符串展示了充分相似性于目标蛋白质，那么这个子字符串可被认为是一个推定的外显子。将推定外显子结构化为基因...

2009-12-30 19:51:00 171

原创剪切联配

1、用一个基因组内的相关蛋白质去重构另一个基因组中的基因的外显子-内含子结构，可通过几种方式开始：在可能的供体和受体点之间选择所有的推定的外显子，寻找所有与目标蛋白质相似的子字符串。通过试图不丢失真正外显子的方法筛选这个集合，一个可能含有许多假外显子的候选外显子集合被保留了下来。2、尽管只利用统计过程很难区分好与坏，但我们可以利用与目标蛋白质的联配来帮助搜索。3、给定候选候选外显子集合和一

2009-12-30 19:39:00 350

Haskell中文版教程

空空如也