![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
生物信息
文章平均质量分 60
JasonKQLin
我欲仁,斯仁至矣!
展开
-
TCGA masked cnv含义
Masked copy number segments are generated using the same method except that a filtering step is performed that removes the Y chromosome and probe sets that were previously indicated to be associated with frequent germline copy-number variation.原创 2024-06-04 14:24:59 · 89 阅读 · 0 评论 -
HISAT2双端read比对结果解释
(51100+57804+33582+277922+1144382)/(4165142)=0.4803原创 2024-02-26 20:12:24 · 539 阅读 · 0 评论 -
PCA和LDA
PCA is an unsupervised method that tries to find the directions of maximum variance in the data. It projects the data onto a new set of orthogonal axes, called principal components, that capture as much of the variability as possible. The first principal c原创 2023-09-05 15:46:16 · 277 阅读 · 0 评论 -
MDS,PCoA和PCA
Non-metric的MDS就叫做Principal Coordinates Analysis(PCoA),它跟PCA的区别在于用距离矩阵代替了PCA中的观察值。MDS分为两种类型:1,metric MDS,它使用距离矩阵进行计算;2,Non-metric MDS,用距离的排序构造矩阵。MDS: A distance matrix.(这里的距离包含各种各样的距离,或者距离的rank)原创 2023-09-05 11:42:19 · 344 阅读 · 0 评论 -
平均值和方差的点估计、区间估计
0,预备知识0.1,中心极限定理0.2,均值的标准误差0.3,卡方分布1,总体均值的无偏估计量2.1,当总体方差已知时对样本均值的描述(Z统计量)2.2,当总体方差未知时对样本均值的描述(t统计量)3.1,当总体方差已知,或者大样本量(n>200,总体方差未知)时,总体均值的区间估计。(在实际操作过程中会对样本进行抽样,每次取n个数出来,算平均值,这些平均值的期望就是对总体方差的无偏估计)3.2,当总体方差未知,总体均值的区间估计。4.1,总体方差的点估计(对任何分布原创 2023-08-29 09:59:30 · 984 阅读 · 2 评论 -
为什么样本方差(sample variance)的分母是 n-1?
https://www.zhihu.com/question/20099757原创 2023-08-28 20:24:26 · 82 阅读 · 0 评论 -
RR、OR和HR区别
1,在医学统计学中,有三个关于比值的概念,分别为相对危险度(relative risk,RR,也称 risk ratio)、风险比(hazard ratio,HR)和优势比(odds ratio,OR)。很多同行一看见这三个概念就容易混绕。在此,笔者拟谈谈如何正确理解这三个概念的区别和联系。我们以病因学研究为例,先谈谈 OR 与 RR 的区别,因为这两个指标均可以从四格表中衍生出来。我们先来看看两个关于吸烟与肺癌的例子:RR(Relative Risk) - 相对危险度RR(Relative Risk转载 2023-08-20 15:52:24 · 195 阅读 · 0 评论 -
chi-square, McNemar‘ exact, Mantel-Haenszel, Kappa, Fisher exact test区别
1,chi-square test2, McNemar’ exact test3,Mantel-Haenszel test4,Kappa test5,Fisher exact test原创 2023-04-03 19:06:00 · 1374 阅读 · 0 评论 -
bismark和bsmap比对原理
任意取一条比对后的reads,经过PCR后得到BSW,BSWR,BSC,BSCR四种reads,因为BSW和BSWR完全互补,BSC和BSCR完全互补,我们只需要取BSW和BSCR去查看就好了(如果BSW能比对上,那么BSWR一定也可以比对上)。1,watson链和crick链都用来做参考基因组,这样只要容许有T比对到C或者T上,就可以实现所有的比对;2,只用watson链做参考基因组,既需要容许有T比对到C或者T上,又需要容许A比对到A或G上。原创 2023-04-26 11:08:33 · 1059 阅读 · 0 评论 -
常用序列比对算法总结
常用比对算法总结原创 2021-12-07 09:49:57 · 5080 阅读 · 0 评论 -
WGCNA分析之一-------理清概念
1,定义WGCNA即Weighted gene co-expression network analysis,加权基因共表达网络分析。2,有什么用2.1 将共表达的一组基因放在一起研究,可以得到比单个上调、下调基因更多的信息;2.2 鉴定"hub gene"(即与其它基因关系密切的基因、处于中心位置的基因、有重要作用的基因);2.3 探究基因模块(一组共表达的基因)与性状(疾病状态)之间的关系。3,输入数据的格式RPKM,FPKM和标准化之后的counts值等等都可以。但必须是以样本为单位进行原创 2021-01-07 22:47:46 · 1741 阅读 · 0 评论 -
不同转录组测序方法总结
1,有参与无参的区别有参和无参指的是有无参考基因组,对于没有参考基因组的物种,采用如下的处理方法:无参考基因组的真核生物转录组项目使用Illumina测序平台,获得测序原始数据后,首先进行质控拼接,并进一步对拼接所得转录本进行功能注释、SNP、SSR标记开发等分析。在此基础上,也可以进行多个样本的差异基因表达分析和差异基因功能富集分析等,用于发现功能基因,为下一步研究提供方向。2,globin去除与否珠蛋白(globin)是一类能够通过铁卟啉环可逆性结合氧的呼吸性蛋白质,广泛存在于细菌、真菌、植物.原创 2021-01-03 00:26:17 · 11731 阅读 · 0 评论 -
RPKM vs. FPKM vs. TPM
1,全称RPKM: Reads Per Kilobase MillionFPKM: Fragments Per Kiolbase MillionTPM: Transcripts Per MillionRPKM vs. FPKM二者类似,RPKM针对单端测序,测得的一条序列就叫做一条reads;FPKM针对双端测序,测序得到的Read 1和Read 2合起来称为一个fragment。如果严...原创 2019-08-09 01:00:44 · 2435 阅读 · 0 评论 -
Normalization方法
1,处理生物学重复问题在生物学实验中,常常需要做3次或以上的重复,但在用数据时,往往要考虑用哪个重复去代表这个状态,比较常用的方法貌似是取平均值,但更好的貌似是下面这种(from L1000):L1000 experiments are typically done in 3 or more biological replicates. We derive a consensus replic...原创 2019-06-15 16:38:56 · 628 阅读 · 0 评论 -
RNAseq Tophat2 library-type
1,RNAseq library typeRNAseq的文库分为链特异性(strand-specific)和非链特异性(non-strand-specific)两种;其中链特异性又分为去掉cDNA第一条链的建库方法,即保留第二条链,参考tophat2软件命名为fr-secondstrand,以及保留第一条链的fr-firststrand方法。Note:RNAseq建库过程首先要将mRNA反转为...原创 2019-01-21 16:53:19 · 1079 阅读 · 0 评论 -
一文学会制作R包
R语言小巧精悍,能在多个平台上快速安装,具有众多的统计包,能快速画出还算美观的图(推荐ggplot2),因此在编程语言的舞台上占有一席之地。对于生物狗来说,主要用下面两种方式来安装R包:1,install.packages()2,source(“https://bioconductor.org/biocLite.R”)biocLite()用别人的包很爽,自己开发一个也很有趣,下面来谈...原创 2018-11-18 22:07:01 · 533 阅读 · 0 评论 -
Kaplan-Meier plot cutoff选择
Kaplan-Meier plot在生物医学中很常见,主要用来做预后分析,比如可以根据gene A的表达量把病人分成两组,用KM plot去比较哪组病人预后好,进而可以得出gene A的表达量高低与病人预后好坏相关性的结论。画KM plot时,有时候会比较纠结怎样对病人进行分组,如何来设置分组的cutoff。经过大量的文献调研,我发现下面几条规律:1,在有充分的证据定义gene A的表达量在某...原创 2018-10-30 22:56:30 · 5394 阅读 · 1 评论 -
R DESeq2 详解
DESeq2结果p-value和padj设为NA的理由:Note on p-values set to NA: some values in the results table can be set to NA for one of the following reasons:If within a row, all samples have zero counts, the baseMea...原创 2018-10-17 20:01:20 · 12814 阅读 · 0 评论