![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本相似度计算
进一寸有一寸的欢喜077
信息化从业人员
展开
-
Paper Reading:Rapid and Sensitive Protein Similarity Searches
Lipman D J , Pearson W R . Rapid and Sensitive Protein Similarity Searches[J]. Science, 1985, 227(4693):1435-1441.这篇paper介绍的是FASTP程序网上有关的链接:fastp: 极速全能的FASTQ文件自动质控 过滤 校正 预处理软件http://www.36...翻译 2019-09-27 21:27:52 · 167 阅读 · 0 评论 -
Paper Reading : Fast, scalable generation of high-quality protein multiple sequence alignments us
0.简介摘要中说道目前大多数都是使用渐进式路线启发式算法计算,但是对于成千上万个序列数据集时,这些方法可能已经到达瓶颈。难以保证在很大数量级数据上保证质量。本文介绍的clustal omega的新程序,它可以快速地对齐几乎任何数量的蛋白质序列,并提供精确的对齐。测试效果:在较小的测试用例中,包的精度与高质量的对齐器的精度相似。在更大的数据集上,clustal-omega在执行时间和质量方面...翻译 2019-09-17 19:08:40 · 457 阅读 · 0 评论 -
【转】生物在线小工具汇总
原标题:生物在线小工具汇总(请收藏)转载自安诺基因公众号一直在寻找生物在线工具的小伙伴们福利来啦,小编整理了多款在线小工具,小伙伴们赶紧收藏起来~~~Promoter Scan功能:启动子预测网址:https://www-bimas.cit.nih.gov/molbio/proscanORF Finder功能:ORF预测网址:https://www.n...转载 2019-09-15 15:16:04 · 724 阅读 · 0 评论 -
【转载 生信课程】03-序列比较-山东大学-生物信息学
序列比较认识序列FASTA 格式,第一行是一个大于号“>”开头,后面紧接注释信息序列相似性相似的序列》相似的结构》相似的功能一致度如果两个序列长度相同,那么它们的一致度可以暂时定义为它们对应位置上相同的残基数目占总长度的百分比。例:上下相同的碱基为2,序列长度为4,则一致度为:2/4=2相似度如果两个序列长度相同,那么它们的相似度可以暂时定义为他...转载 2019-09-15 10:58:53 · 3575 阅读 · 2 评论 -
序列比对概念及相应工具的对比
序列比对概念及相应工具的对比0x01 概念和意义在生物信息学研究中,最基本的部分是序列比对,而最基本的操作是比对,主要可分为双系列比对和多序列比对,辨别序列之间的差异,同时发现生物序列中的机构和功能信息,进而发现它们的相似性和同源性,比较多个生物序列相似性是由序列比对来完成的。总的来说,序列比对的意义是对序列的相似性在核酸、氨基酸的层次上进行分析,从而推测比对中的各个序列间结构功能以及进化...原创 2019-09-07 11:18:00 · 7865 阅读 · 0 评论 -
【转】MEME(Motif-based sequence analysis tools)使用说明
MEME是用于从一堆序列中搜索功能结构域的工具。比如说当你拿到了许多CHIP-chip或者CHIP-seq的数据,当分析出峰所处的位置之后可以得到一些这些峰所代表的序列,这就是蛋白质与DNA相到作用所保护下来的片段。所以使用MEME搜索其中非常相似的序列片段就可能是有一定功能的结构域。所以,MEME的输入必须至少有一个Pearson/FASTA格式的序列文件。命令:meme<...转载 2019-09-07 09:38:41 · 4875 阅读 · 2 评论 -
序列比对现状
算法生物HTML序列比对现状(序列比对问题研究)序列比对根据同时进行比对的序列数目分为双序列比对和多序列比对序列比对从比对范围考虑也可分为全局比对和局部比对,全局比对考虑序列的全局相似性,局部比对考虑序列片段之间的相似性[11,13]。局部比对的生物学基础是:蛋白质功能位点是由较短的序列片段组成,尽管在序列的其它部位可能有插入、删除或突变,但是这些序列片段具有相当大的保守性。此时,局部...转载 2019-09-06 17:08:17 · 343 阅读 · 0 评论 -
simhash的应用
目录0x01 海量数据文本相似度解决方式SimHash+分词方法+基于内容推荐算法0x02海量simhash查询(1)抽屉原理(2)建立索引(3)判重(4)优化效果(5)权衡时间、空间(6)存储选型0x03比较相似度0x01 海量数据文本相似度解决方式SimHash+分词方法+基于内容推荐算法原文链接:海量数据文本相似度解决方式SimHash+...转载 2019-08-08 11:04:09 · 796 阅读 · 0 评论 -
simhash的背景、原理、计算、使用、存储
0x01 背景介绍原文链接:Simhash的生成及存储 - chinawangfei的专栏 - CSDN博客根据 Detecting Near-Duplicates for Web Crawling 论文中的介绍,在互联网中有很多网页的内容是一样的,但是它们的网页元素却不是完全相同的。每个域名下的网页总会有一些自己的东西,比如广告、导航栏、网站版权之类的东西,但是对于搜索引擎来讲,只...转载 2019-08-08 10:48:01 · 1613 阅读 · 1 评论