bioinfo
文章平均质量分 73
hellopbc
追求代码世界的白话(转战UEFI)
展开
-
DNA正负链
DNA正负链关于DNA正负链的定义biostartsDNA是互补双链,一条是正链(forward strand),一条是负链(reverse/minus strand)。————————————————不重要,不懂—————————————————biostarts认为正负链可以任意指定关于DNA正负链的定义认为:把碱基序列与mRNA一致(只是T和U的区别)的核酸单链定为==正链(+)==,不作模板转录,也称为有义链(sense strand), 又称编码链(coding strand)。将碱基序列与mRN原创 2022-07-11 21:17:51 · 8892 阅读 · 0 评论 -
position-correlation scoring feature(PCSF)
2020-11_Theory in Biosciences_Eukaryotic and prokaryotic promoter prediction using hybrid approachhttps://link.springer.com/article/10.1007/s12064-010-0114-8原文:The PWM can be constructed by counting the frequencies of oligonucleotides in conserved sites of原创 2022-06-10 11:02:55 · 163 阅读 · 0 评论 -
生物序列保守性
zhihu在生物学中,保守序列指的是具有高度相似性或同一性的分子序列,这些序列可以是核酸序列(如RNA或DNA序列),蛋白质序列,蛋白质结构或糖类中的序列。这些序列高度相似,却来自不同的物种或同一生物体产生的不同分子原文:For investigating the signal properties of promoter sequences, the conservation of oligonucleotide with length k-mer at the ith site can be calcu原创 2022-06-06 09:52:30 · 4361 阅读 · 0 评论 -
CD-HIT
文章目录CD-HITref介绍算法原理索引表Short word filter短词统计Banded alignment算法限制PSI-CD-HIT在线服务器离线安装使用方式常用示例GclustCD-HITCD-HIT is a very widely used program for clustering and comparing protein or nucleotide sequences.主要用于基因序列根据阈值去重ref官方:CD-HIT 官网github CD-HITcdhi原创 2022-04-21 22:18:30 · 2090 阅读 · 0 评论 -
NPSE(Nucleotide pair spectrum encoding)
NPSENPSE 策略计算窗口内所有可能的 k 间隔核苷酸对的出现次数。特征表示:fkNPSE={{AT}0,{AA}0,...,{AA}k,...,{CC}k}f^{NPSE}_k=\{\{AT\}_0,\{AA\}_0,...,\{AA\}_k,...,\{CC\}_k\}fkNPSE={{AT}0,{AA}0,...,{AA}k,...,{CC}k}变量说明:kkk:表示窗口大小{AA}k\{AA\}_k{AA}k:表示k间隔核苷酸对特征维度:16×(k+1)16\tim原创 2022-04-06 20:26:27 · 515 阅读 · 0 评论 -
Mismatch K-tuple
Mismatch K-tupleMismatch K-tuple表明连续 k 元组中允许出现m(m<k)个错误说法一StackTADB: a stacking-based ensemble learning model for predicting the boundaries of topologically associating domains (TADs) accurately in fruit flies特征表示:fkMis={{Ak}1,{Ak−1T1}1,{Ak−2T2}1原创 2022-04-06 17:02:24 · 281 阅读 · 0 评论 -
通过bed文件获取基因序列(fasta)
文章目录bedtools、getfastarefnotebedtools、getfastarefbedtools getfasta docnote安装:conda install bedtools参考文件:需要提前下载好fasta文件最好有fai索引文件(bedtools也会自动生成)语法:bedtools getfasta [OPTIONS] -fi <input FASTA> -bed <BED/GFF/VCF>如:bedtools getfasta原创 2021-10-12 17:01:05 · 5271 阅读 · 0 评论 -
RPKM、FPKM、TPM
RPKM、FPKM、TPMRPKM(Reads Per Kilobase per Million)每千个碱基的转录每百万映射读取的reads数FPKM(Fragments Per Kilobase per Million)每千个碱基的转录每百万映射读取的fragmentsTPM(Transcripts per million)每百万条reads的转录本refRPKM和FPKM值衡量基因表达量StatQuest学习笔记24——RPKM FPKM TPMRead count CPM RP原创 2021-06-23 17:09:57 · 2779 阅读 · 0 评论